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Cuvânt-înainte 


Motto: „Everyone takes the limits of his 
own vision for the limits of the world.” 
Arthur Schopenhauer 


Bvoluând „de la procesarea de imagini către vederea artificială”... luând în calcul 
progresele cognitive realizate în ultimele decenii, cartea ne poartă logic printr-un număr de 
aplicaţii şi teme de cercetare moderne, inedite, cu o deosebită aplicabilitate practică gi 
didactică. 

Subiectele abordate, deşi variate, au un loc comun în termenul generos, relativ dificil 
traductibil, vision. 

De la viziunea ideatică, la percepția vizuală, asistarea deficienţelor vizuale, 
măsurători nanometrice prin nanovision, la vederea artificială, sau computerizată, utilizarea 
diferită a termenilor în traducerea noțiunii vision, se datorează, de fiecare dată, unui alt 
context. Tehnologiile moderne de explorări funcționale permit descifrarea structurilor 
complexe ale cortexului şi reuşesc să decodifice modalitatea în care se realizează percepția 
vizuală şi semantica gândirii asociate. 

Gravitând în jurul acestui „nucleu terminologic”, vision, cartea este rezultatul 
colaborării cu cercetătorii din cadrul Institutului de Cercetări în Informatică din Toulouse, 
IRIT. Universitatea Paul Sabatier, realizată majoritar in timpul stagiului post-doctoral pe care 
l-am efectuat in cadrul proiectului POSDRU 56815, „Societatea bazată pe cunoaştere, 
cercetări, dezbateri, perspective”, dar şi al oportunității de a cunoaşte cercetători în domenii 
de vârf, în timpul conferințelor şi al colaborărilor profesionale ocazionate de proiect, cum este 


domeniul nano-vision. sali A 
4 incursiune in zona aplicațiilor tehnologice conexe 


Capitolul care deschide aceast siune în Z conte 
vederii umane şi artificiale, „Aspecte cognitive In indexarea automata a continutului 
audiovizual” (in forma sa originală sub denumirea „Cognitive Issues in Autoga, 
Audiovisual Content Indexing”), este scris de profesorul Philippe Joly, specialist domem 
structurării automate a conținutului audiovizual, coordonatorul unui proiect vast în i 3 
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Universitatea Toulouse II reunind patru grupuri de cercetare prin tema „Analiză şi sinteză de 
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Toulouse III. 
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SAMOVA structurare, an à 
conduc către aspectele cognitive explorate 
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indexare a conţinutului audiovizual al 
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Impaired Persons”), Realizările acestui laborator impresionează prin interactivitatea 
dispozitivelor elaborate, a mediului virtual simulat prin software dedicat identificării 
drumului optim de către persoana cu deficiențe vizuale, prin planificarea minuțioasă, asistată 
de calculator şi memorarea căii de parcurs. Specialist în neuroscience, această cercetare 
ştiinţifică pe care o coordonează vine în întâmpinarea unui proiect ambițios, similar 
implantului cochlear, proteza vizuală. 

Profesorul Hidenori Mimura, directorul Institutului de Cercetare în Electronică, 
Universitatea Shizuoka, Japonia, realizează o introducere in nanovision, prezentându-ne 
câteva „Dispozitive imagistice dezvoltate de Centrul de Excelență Secolul 21 — Grupul 
Universităţii Shizuoka”, (engl. „Imaging Devices Developed by the 21° Century COE Group 
in Shizuoka University, an Introduction to Nanovision”). Microscopul cu fluorescență care 
poate detecta structurile de ordin nanometric prin măsurarea timpului de descreştere a emisiei 
fluorescente este doar una dintre realizările extrem de interesante prezentate în acest capitol. 

Alain Crouzil, Guillaume Gales, Sylvie Chambon analizează modalități noi de 
„Stabilire a corespondentelor între pixeli în stereoviziunea binoculara” (fr. "Mise en 
correspondance de pixels pour la stéréovision binoculaire", engl. „Pixel Matching in 
binocular StereoVision”). Alain Crouzil, conferentiar la Universitatea Paul Sabatier, este un 
dascal entuziast si talentat care a dat acestui text o deosebita valoare didactica. Fiind descrisa 
în amănunt procedura stabilirii corespondentelor stânga-dreapta pentru interpretarea si 
reconstrucția imaginilor, metodele prezentate sunt foarte utile şi în dezvoltarea unor noi 
proiecte de cercetare. Şi acest capitol a fost elaborat în timpul stagiului post-doctoral la IRIT, 
UPS, Toulouse, Franţa. 

Pe aceeaşi temă se dezvoltă şi capitolul scris de Florin Rotaru, Silviu Bejinariu. 
Simona Pescaru“, cercetători ştiinţifici în cadrul Academiei Române, Institutul de Informatică 
Teoretică, respectiv *,,vision scientist” în cadrul societăţii Robotic Vision Technologies. 
Abordând noi aspecte, se continuă tema precedentă, prin „Tehnici de reconstrucție 3D din 
imagini multiple” (engl. „3D Reconsruction Techniques from Multiple Images”). Cele două 
capitole se completează reciproc prin detalii tehnice cu suport fundamentat matematic. 

Dacă primul capitol se referă la indexarea automată a conţinutului unor înregistrări 
pe baza trăsăturilor extrase, o continuare logică o găsim în capitolul „Metode de analiză şi 
extragere a caracteristicilor esenţiale din imaginile digitale”, în care Adrian Ciobanu prezintă 
amănunțit modalitățile de extragere a unor trăsături esențiale, economice, din imagini şi 
aparatul lor simplu de calcul, destinat regăsirii automate a imaginilor şi clasificării acestora în 
baze masive de date. 

„De la percepţia viziuală către detecția automată a texturii” (engl. „From visual 
perception to automatic detection of texture”), autori Mihaela Costin (cercetător ştiinţific în 
cadrul Academiei Române) şi Anca Ignat (cadru didactic în cadrul Universităţii „AL I 
Cuza”), este un capitol care analizează elementele neuro-fiziologice ce se pretează modelării, 
prin parcurgerea unor studii în domeniul percepţiei vizuale, focalizându-se pe textură. Dificil 
de realizat, testul perceptiv asupra texturii beneficiază mai mult de concluzii din teste conexe 
decât directe, Tragem concluzii asupra percepției texturii din testele de detecție a orientării, 
Viteza de observare a unui animal pe un anumit background, testele de identificare a 
luminozităţii sau de percepere a umbrelor ete, Testele realizate prin detectarea amplitudinii Şi 
direcționalităţii în texturi utilizând metoda Dual Tree Complex Wavelet Transform, prezintă 0 
oarecare similaritate cu modul în care coloane de neuroni sesizează aceste detalii, în sistemul 
vizual uman și nu numai, Compararea mai multor tehnici laborioase de calcul al similarități 
în detecția texturii, pe imagini bidimensionale, utilizând baze extinse de imagini cu textură, ne 
dau doar un indiciu despre calea laborioasă de parcurs către ceea ce ne place să numim vedere 
artificială, „artificial vision”, 


Cuvânt-înainte 


Ca un corolar în finalul acestei lucrări domnul profesor Dan Gabriel Simbotin vine 
si descrie puntea dintre cercetările în psihologie şi ştiinţe cognitive către epistemologie şi 
filozofie în „Percepţie, reprezentare şi limitele posibilităților de cunoaştere” (engl. 
„Perception, Representation and Limits of Knowing”). 

„Cartea este rezultatul direct al proiectului „Societatea Bazată pe Cunoaştere — 
cercetări, dezbateri, perspective”, cofinantat de Uniunea Europeană şi Guvernul României din 
Fondul Social European prin Programul Operational Sectorial Dezvoltarea Resurselor Umane 
2007-2013, POSDRU 56815, şi a fost concepută, discutată, scrisă și tradusă cu ocazia 
stagiului pe care l-am efectuat la IRIT, UPS, Toulouse, Franța şi al participării la 11° 
International Conference on Global Research and Education, 2012, InterAcademia august 
2012, Budapesta. 

Mulţumesc bunilor mei colegi Adrian Ciobanu, Silviu Bejinariu, Florin Rotaru, 
fizicienilor Cristina Niţă şi profesorului Dumitru Luca, care mi-au stat alături cu sfaturi 
profesioniste, discuții, completări şi asistarea traducerii pe parcursul editării acestei lucrări. 

Mulţumiri deosebite pentru colega mea, Anca Ignat (cadru didactic la Facultatea de 
Informatică, UAIC), cu care, de câţiva ani buni, analizăm metodele de caracterizare a 
texturilor. 

Alese gânduri de recunoştinţă celor care au facut posibilă publicarea acestei cărți 
despre vision, îndrumătorilor din proiect, profesorilor Nicu Gavriluta, Cornelia Găşpărel, Dan 
Gabriel Sîmbotin, Ovidiu Gherasim, acad. Teodor Dima şi tuturor celor care au pus mult 
suflet şi energie pentru buna desfăşurare a proiectului, şi care merită toata admiraţia noastră, 
doamnei Meda Galea, Irina Frasin, Margareta Munteanu, Giorgiana Donceag, Magdalena 
Lazar, domnului Codrin Dinu Vasiliu. 

Cu plăcere săndurile mi se îndreaptă către cercetătorii din IRIT, Institutul de 
Cercetări în Informatică din Toulouse, centru similar Institutului de Informatică Teoretică al 
Academiei Române, care m-au primit cu o deosebită colegialitate şi deschidere. Elaborarea 
acestor capitole a implicat un număr imporant de reuniuni de lucru, discuții, corecturi, 
concretizate în timp afectat din programul de lucru extrem de încârcat al unor profesori şi 
cercetători renumiţi cum sunt: Alain Crouzil, Philippe Joly, Christophe Jouffrais, dar şi 
Regine Andre-Obrecht, Didier Dubois, Henri Prade, Simon Thorpe, Claudette Cayrol, 
Florence Dupin de Saint Cyr, Marie Christine Schiex şi celor care m-au ficut să mă simt 
realmente colega lor de birou, în IRIT 1, etajul 3, sala 314, Yannick Chevalier şi Philippe 
Balbiani. f SE 4 ware: À 

Mulţumiri speciale profesorului Hidenori Mimura, care a afectat scrieri acestui 
capitol, un timp deosebit de preţios în domeniul nanovision, în cercetarea de înalt nivel pe 


care o coordonează ca director în Research Institute of Electronics, Shizuoka University, 


Japonia, EA ows : 
j Cartea deschide un drum, de la procesarea de imagini către vederea artificială prin 


studiul aspectelor cognitive pentru toţi cei entuziaşti în a extinde sensurile şi aplicațiile 
posibile ale domeniului vision. 


Mihaela Costin 
laşi, februarie, 2013. 


Aspecte cognitive în indexarea automată a conţinutului 
audiovizual 


PHILIPPE JOLY' 


ABSTRACT. Audiovisual content indexing is the preliminary step to build a search 
engine to retrieve multimedia contents. The difficulty of this task is more important 
when no textual description accompanies the documents. The first scientific works 
made to address this topic where focusing on building discriminative digital 
signatures from basic features. But the need for indexing has grown with the amount 
of documents available to ordinary people and new strategies need deeper analysis. 
Some of the perspectives do take into account cognitive issues in these signatures or 
in the distance computation between them. In this chapter, we address several recent 
issues on scene classification for image retrieval, similarity estimation, character 
identification and temporal structure analysis. 


KEYWORDS: content indexing, scene, object, multimedia. 


1. Introducere 


Indexarea continutului audiovizual este doar un pas preliminar in constructia 
unui motor de căutare dedicat preluării unui conţinut multimedia. Sarcina este 
evident mai dificilă atunci când nici o descriere textuală nu însoţeşte documentele. 
Primele lucrări ştiinţifice care au abordat această topică, s-au focalizat pe construirea 
de semnături digitale discriminative pornind de la trăsăturile de bază. Dar necesitatea 
indexării a crescut cu volumul de documente disponibile on-line, impunându-se 
descoperirea unor noi strategii. O posibilă perspectivă ia în considerație aspectele 
cognitive în atribuirea acestor semnături şi în calcul distanțelor dintre ele. Vom 
aborda în cele ce urmează mai multe probleme recente cu privire la clasificarea 
scenelor pentru repăsirea unor imagini, estimarea similarităţii, identificares 
caracteristicilor şi analiza structurii temporale. 

Multe instrumente au fost recent introduse în viata de zi cu zi pentru a capta 
sau pentru a edita conținutul digital, pentru a stoca şi a distribui aceste înregistrări. În 
paralel cu această evoluţie tehnologică, a apărut necesitatea unor sisteme de indexare 
care să permită filtrarea gi regisirea informaţiilor relevante dintr-o masă de date. 
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eee de indexare de text, cercetările actuale se concentrează pe 

ată a conţinutului audiovizual. Ca suport al acestor cercetări, găsim o 
schemă generală ce corespunde posibilităţilor aplicative. Aceasta constă în crearea 
unui vector de trăsături descriptive mai mult sau mai puţin discriminative, extrase din 
fiecare unitate de conținut. Interogarea formulată de către un utilizator final, poate fi 
transformată într-un vector de trăsături. În versiunea simplă a acestei scheme, 
vectorii generafi automat sunt în final confruntati, comparati, cu termenul de intero- 
gare: o metrică, cum este o distanță sau o măsură a similaritatii este folosită pentru a 
efectua această comparaţie. Vectorii (şi conținutul indirect indexat) sunt ordonati 
după distanța crescătoare. 

In această schemă, există două etape în care mecanismele cognitive pot fi 
implicate. In primul rând, trăsăturile ce caracterizează conţinutul pot fi inspirate în 
natura lor, sau în modul în care sunt extrase, din teoriile dezvoltate în domeniile 
percepției şi cognitiei, cunoaşterii. Apoi, metrica folosită pentru a compara vectori 
poate fi mai mult sau mai putin sofisticată, luând în considerare acelaşi tip de 
proprietăți. Multe lucrari au propus integrarea în procesul de estimare a distanţei a 
unor parametri exogeni, cum ar fi aprecierea utilizatorului referitor la ceea ce 
înseamnă „similaritatea”, sau „sensibilitatea”, în percepția conținutului. 

În paragrafele următoare, vom detalia acest subiect. Chiar dacă cele mai 
multe dintre aceste exemple provin din lucrările recent dezvoltate în cadrul grupului 
de cercetare SAMOVA al Institutului de Cercetări în Informatică din Toulouse, IRIT, 
Univeritatea Paul Sabatier, în ultimul deceniu, trebuie însă să subliniem faptul că 
realizările din acest domeniu sunt în continuă expansiune. Ca urmare, ne vom con- 
centra doar pe un număr redus de probleme şi vom prezenta câteva dintre caracte- 
risticile uzual folosite pentru indexarea imaginilor şi a sunetului, din încercările 
făcute în a replica, pe cât posibil, comportamentele fiziologice şi psihologice umane. 
Vom discuta apoi despre conceptul de similaritate şi modul în care aceasta poate fi 
pragmatic integrat într-un motor de căutare. Pentru ilustrare, vom da detalii e isi ire 
la unele aspecte din domeniul identificării audiovizuale a persoanelor, şi la analiza 


structurii audiovizuale a unor înregistrări. 


2. Clasificarea unor scene pentru regăsirea imaginilor 


Având în vedere potenţialul mare al domeniului exploatării conținutului 
digital cu caracter personal, s-au întreprins cercetări încă din timpul anilor a Aa 
a ul dezvoltării sistemelor capabile să efectueze clasificarea automată a a 
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stabili noi direcţii de dezvoltare în acest domeniu, sunt organizate anual întruniri 
internaţionale care permit cercetătorilor să confrunte metodele şi rezultatele obținute 
lucrând pe aceleaşi seturi de date. 


2.1. Caracteristicile (trăsăturile) globale 


Când clasificare a fost limitată la detectarea câtorva clase, caracteristicile 
globale au constituit adeseori o soluție suficientă pentru clasificatori, pentru a obține 
rezultate de o bună calitate. Caracteristicile globale tipice caracterizează textura şi 
culoarea într-o imagine. 

Filtrele Gabor au repurtat un succes deosebit, fiind printre primele introduse 
în descriptorii de tip MPEG-7, datorită proprietăților lor discriminatorii (amplificare, 
orientare) dar şi posibilității de face legătura cu reprezentarea semantică. Pe lângă 
aceste caracteristici, multe lucrări au căutat o cale inspirată mai mult din biologie. Pe 
baza rezultatelor experimentale obţinute în domeniul neuropsihologiei”, au fost 
dezvoltate bănci de filtre pentru a modela felul în care se presupune că reacționează 
ochiul uman la continutul diferit de texturi dintr-o imagine. 

Alte lucrări încearcă să modeleze procesul uman de estimare al similaritatii 
între conţinutul a două imaginii prin transformări dedicate ale caracteristicilor, sau 
prin agregări ale descriptorilor de textură” *. 

O caracteristică foarte uşor discriminatorie şi eficientă pentru indexarea de 
imagini este culoarea. Aceasta constituie un real suport în constituirea vectorilor de 
descriere prin trăsături, prezentând robustete la numeroase transformări, cum ar fi 
modificările geometrice sau schimbările în intensitate luminoasă, prin selectarea 
ingenioasă a unui spaţiu de culoare. Cum vectorii descriptivi trebuie să fie comparati 
între ei, un spaţiu de culoare care respectă proprietăţile perceptive (cum ar fi spațiul 
de culoare LAB’) este foarte adecvat. Cu toate acestea, în literatura de specialitate, 
această posibilitate nu a fost mult exploatată, poate pentru că păstrarea spațiului de 
culoare folosit pentru codarea inițială a imaginii, părea a fi o abordare cu costuri de 
calcul scăzute şi suficient de eficientă. 

În general, un descriptor de culoare este de fapt o histograma de culoare 
calculată după o cuantificare a culorilor. Unul dintre neajunsurile majore ale unui 
descriptor global de culoare constă în dificultatea estimării similarităților. Există în 
principal două strategii de indexare. Pe de o parte, sunt generati vectorii tuturor 
imaginilor într-un prim pas de cuantizare, cu o aceeaşi hartă de culoare (adoptând o 
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Hervé Le Borgne, Nathalie Guyader, Anne, Guérin-Dugué, Jeanny Hérault, Classification of 
images: ICA Filters vs Human perception, In Proc. Of ISSPA 2003. 

Simon Thorpe, Arnaud Delorme, Rufin VanRullen and Williams Paquier (2000) Reverse 
engineering of the visual system using networks of spiking neurons, IEEE International Symposium 
on Circuits and Syst 4 405-408, 

LAB — abreviere care provine din; L-luminozitate, A- axa a: red-green, B- axa b: blue-yellow (nota 
editorului), 

Rezultate deosebite in cercetări foarte recente pe aceeași direcție au fost obținute chiar în cadrul 
colectivelor de cercetare ale Academiei Române — nota editorului. 
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Aspecte cognitive in indexarea automată a conținutului audiovizual 
anume paletă” de culori). Pe de altă parte, cuantificarea, cuantizarea, se realizează 
referitor la culoarea care apare efectiv în fiecare imagine (realizând o ordonare, o 
aglutinare a culorilor). Atunci când în urma primei abordări, toate imaginile sunt 
indexate cu un acelaşi tabel de cuantizare, vectorii pot fi comparati rapid, cu metode 
relativ simple (cum ar fi distanța Manhattan). 
se oe eae Ge vic lege mice chiar şi mici, vectorii de culoare pot fi 

UŞII similare pot fi clasificate foarte diferit, prin 
acest mecanism. Intr-o a doua abordare, sunt folosite distanțe mai sofisticate care să 
ia în considerare atât vectorii, cât şi tabelele de cuantificare (calculând distanța 
pătratică sau EMD — Earth Mover Distance — care este o măsură a distanței dintre 
două distribuții de probabilitate pe o regiune D). Se estimează rezultate astfel 
obținerea unor rezultate mai bune, dar costul de calcul reduce puternic cantitatea de 
comparații ce pot fi realizate într-un timp interactiv rezonabil. 

Procesul de cuantizare a culorii este o problemă-cheie în cele mai multe 
aplicaţii de indexare de imagine. În multe cazuri, un descriptor de tip „culoare 
dominantă” este folosit drept trăsătură distinctivă, dar modul în care culorile 
dominante sunt extrase este în general discutabil. Culorile dominante pot fi definite 
ca fiind corespunzătoare primelor N vârfuri din maximele din histograma de culoare 
(care este mai mult sau mai putin şi propunerea făcută în [MPEG-7]). 

Deoarece într-o imagine naturală am putea avea doar pixeli de culori diferite, 
este necesară mai întâi o cuantificare, pentru a putea extrage culorile dominante. 
Dacă luăm în considerare răspunsurile date de utilizatorii finali atunci când li s-a 
cerut să indice culoarea dominantă pentru o imagine dată, am putea observa diferenţe 
importante față de rezultatele date de un proces automat. De obicei, o astfel de 
diferență apare pentru imagini care prezintă un singur obiect pe un fundal uniform. 
Când computerul identifică culoarea de fundal ca fiind cea dominantă, utilizatorii se 
uită în general doar la obiect pentru a determina ce culoare dominantă are. Evident, 
în cele mai multe cazuri, identificarea unei similarități puternice între două pee 
care prezintă acelaşi obiect pe două fundaluri diferite este un rezultat considerat 
pie neajuns nu este specific doar descriptorilor de cuban: pe ee 
„descriptorilor globali”, care caracterizează întreaga 1magıns PA a 
i 7 ji ‘fice din imagine. „Descriptorii globali” pot fi uşor 
aie AVES NAF EA divizarea unei imagini în regiuni mai mici, 
transformați în descriptori locali oe izae i functie pentru fiecare dintre aceste 
printr-un algor itm de exlragere Sih a t, special conceputi pentru a surprinde 
zone, Unii descriptori au fost, mal recent, sp 


caracteristici discriminatorii locale, ale unei imagini. 
2.1. Caracteristicile (trăsăturile) locale 


j 4 ag î ‘ rent 
G automata a hartilor de puncte care atrag in mod prepondere 
enerarea i; 


atentia a identier itiilor dintr-o 
‘a saliente, (SM »s lience map”) presupune evidenţierea poziti i 

aie A ide clip in care ochiul ar trebui să insiste (să zăbovească) mai 
eo 


m 4 i i i inti ientelor sau 
imagine sau dintr un NG se parcurge conţinutul Imagini, SM Pang ae r ui sau 
eae ike et mai putea fi numită, poate fi produsă de un disp 

„harta atenţiei” cum ar 
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urmărire a privirii. Dar în domeniul indexării automate a conţinutului, obiectivul este 
de a genera astfel de hărți utilizând modele predictive, în general bazate pe textura 
locală şi conţinutul de mişcare. Ideea principală este că informaţiile discriminatorii 
sau semantice nu sunt omogen distrbuite în imagine. Prin urmare, există zone mai 
relevante, care trebuie descrise prin mai multe detalii, în procesul de indexare. 

Generarea automată a acestor hărți SM ar putea fi inspirată din domeniul 
neuropsihologiei dar asta se întâmplă rareori în cercetarea clasică care nu ia in 
consideraţie elemente noi, din domeniul ştiinţelor cognitive, deoarece rezultatele sunt 
evaluate în funcţie de precizie pentru documentul returnat de un motor de căutare, şi 
nu în funcţie de zonele saliente, de harta de zone relevante. Dintre lucrările recente, 
putem menționa aici „ zoomable interactive video” sistem dezvoltat de Vincent 
Charvillat’, în ultima decadă. 

Scopul urmărit este de a mixa o primă hartă de zone saliente care indică 
priorităţile calculate pentru zonele cu un nivel ridicat al gradientului de densitate, sau 
care identifică obiecte în mişcare, cu o altă hartă de zone saliente construită prin 
reținerea locatiilor unor clicuri efectuate de utilizatori când doresc să mărească 
anumite părți specifice dintr-un video. 

Datorită acestor cunoştinţe agregate, schema de codare a înregistrării video 
poate fi adaptată pentru a păstra anumite detalii la o rezoluţie înaltă în regiunile de 
interes (ROI „regions of interest”), cu scopul de a oferi posibilitatea unui zoom 
eficient, păstrând în acelaşi timp o rată de compresie rezonabilă. 

S-a propus marcarea unor puncte de interes pentru realizarea unui model al 

zonelor unde privirea persistă un timp foarte scurt înainte de a trece mai departe, 
atunci când este explorată vizual imaginea. După cum s-a menţionat deja, în 
domeniul indexării multimedia, cercetătorii au acordat atenţie mai ales robustetei şi 
invariantei algoritmului de extracție dezvoltat, sau proprietății discriminative a 
descriptorului ataşat fiecărui punct. Am putea spune însă că punctele şi descriptorii 
SIFT şi SURF sunt departe de consideratiile cognitive. Descriptorii uzuali atașați 
puntelor de salience utilizează distribuția gradientului în vecinătatea fiecărui punct (şi 
anume ,,histograme de gradient” sau „HoG”). Având în vedere puterea discriminativa 
remarcabilă a acestor descriptori, s-a propus utilizarea lor ca elemente pentru un nou 
tip de schemă de codare a imaginii. Ideea este de a colecta regiunile din imagini care 
generează puncte similare de interes (cu descriptori similari), pentru a putea duce 
aceste regiuni pe o imagine initial albă (vidă), şi utilizând metodele de inpainting şi 
de interpolare să se umple zonele libere rămase goale, sa se genereze o nouă imagine. 
Deoarece imaginile obţinute cu acest proces invers sunt de o calitate suficient de 
bună, putem vedea descriptorii initial concepufi ca fiind semnături discriminatorii 
eficiente, ce pot servi la reprezentarea prin compresie a unui conținut vizual. Mai 
mult decât atât, putem trage concluzia că ariile înconjurând aceste puncte de interes 
(SIFT sau SURF) sunt corespunzătoare părților semantic semnificative din conţinutul 
vizual al înregistrării. 


Vincent Charvillat, Wei Tsang Ooi, Romulus Grigoraş, Geraldine Morin, Crowdsourced Automatic 


Zoom and Scroll for Video Retargeting în ACM Multimedia, Florence, 25/1 1/2010-29/1 1/2010, 
ACM, (suport electronic), 2010. 
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2.2 Trăsături audio 


Atunci când o coloană sonoră a fost înregistrată împreună cu conținutul 
vizual care urmează a fi indexat, s-a observat o complementaritate între indicii care 
pot fi extraşi prin fiecare dintre aceste modalităţi. De exemplu, complexitatea 
problemei identificării unei persoane într-un context audiovizual poate fi mult redusă 
dacă se folosesc în acelaşi timp atât indicii audio cât şi cei video. 

Utilizarea indicilor audio apare astăzi ca o sursă alternativă de informare 
dacă dorim să clasificăm automat locaţia unei înregistrări. Putem înțelege evident că 
un sunet de valuri poate ajuta la identificarea unei scene de plajă, sau un sunet de 
claxon sau de motor poate fi de util pentru a decide dacă un videoclip ilustrează 
imaginea unei străzi. Trăsăturile audio pot fi mai relevante în unele cazuri decât cele 
video pentru identificarea anumitor evenimente, cum ar fi „spălarea unor vase”, 
înregistrată de dispozitivele de monitorizare folosite pentru asistarea persoanelor în 
vârstă la domiciliu“. 

Pentru a procesa coloana sonoră a documentului audiovizual, sunt uzual 
extrase câteva caracteristici, pentru a caracteriza unele elemente specifice conti- 
nutului, cum sunt vorbirea, muzica, aplauzele, râsetele, sunetul de clopoței, ... etc. 


Pentru a procesa coloana sonoră a documentului audiovizual, câteva caracte- 
ristici sunt uzual extrase, pentru a caracteriza unele elemente specifice conținutului, 
cum sunt vorbirea, muzica, aplauzele, râsetele, sunetul de clopoței, ... etc. 

Aceste caracteristici sunt: 

- coeficienții spectrali (sau cel putin magnitudinea lor); 

- coeficienții cepstrali’; A a ee 

„energia de modulare la 4 Hz”, care caracterizează viteza silabică de exprimare 

= see, ae care caracterizează nivelul de organizare al conținutului 
muzical etc. 

MPEG-7 oferă un mare număr de 


i î 1 descriptorilor vizuali, 
Eni Le : audio’ (cum ar fi 


audio utili pentru caracterizarea conţinutului 


descriptori 


Obrecht, Water Flow Detection From a Wewene 
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Reel Ha Pro E Sp E inversă a spectrului, Transformata Fou 
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(înainte-înapoi), cu scopul de a diviza semnalul audio în unități cvasi-stationare 
caracterizate prin modele gaussiene cu autoregresie. 

Astfel, putem astfel observa numărul de segmente generate într-o fereastră 
alunecătoare (care este în general mai mic pentru un conținut muzical decât pentru un 
conţinut vorbit, rostit), şi durata segmentelor (care sunt de obicei mai lungi în cazul 
muzicii decât al vorbirii) etc. 

Unele caracteristici pot fi utilizate pentru a încerca să ne apropiem de modul 
de funcţionare a sistemului auditiv uman. Se poate folosi, de exemplu, un banc de 
filtre Gammatone pentru a genera un vector descriptiv. Filtrele Gammatone sunt 
definite ca produsul a doi factori: o funcţie cosinus şi o distribuţie gamma: 


g(t)=a- Ptg cos(2aft + ø) (1) 


Aceste caracteristici au fost comparate cu unele caracteristici clasice 
(coeficienții cepstrali şi descriptorii MPEG-7) pentru evaluarea performantele lor în 
geolocalizarea sunetelor înregistrate". În aceste lucrări s-a folosit o bază de date de 
sunete diferite pentru antrenare clasificatorilor. Evaluarea rezultatului se realizează 
prin calculul distanței medii până la locația efectivă unde sunetul testat a fost 
înregistrat. În rezultatele studiilor actuale, coeficienții cepstrali şi filtrele Gammatone 
generează o descriere cu aproape aceeaşi abilitate de a caracteriza conţinutul, în timp 
ce descriptorii MPEG-7 par a fi un pic mai eficienți pentru o astfel de activitate. 
Studiul nu contestă interesul pentru filtrele Gammatone dar sunt necesare noi 
cercetări pentru a determina schemele de decizie în care aceste filtre pot fi folosite. 

Unul din procesele principale în analiza automată a unei coloane sonore 
(pentru filme şi conținut TV) constă in a determina prezența a patru clase de sunete: 
vorbire, muzică, sunete şi tăcere; ulterior, fiecare clasă poate fi împărțită în subclase. 
În cazul discursului, este necesară segmentarea continutului în funcţie de vorbitori 
(Guyot 2012)'*, şi pe baza acestor rezultate să se determine rolul jucat de fiecare 
vorbitor (Manjunath 2002)'*. În cazul muzicii, se doreşte separarea continutului 
vocal de cel instrumental, cât şi clasificarea dupa criteriul monofonic/polifonic (0 
singură voce la un moment dat sau mai multe voci în simultaneitate). Una dintre 
caracteristicile de bază pentru un astfel de proces constă în extragerea „piteh-ului” 
sau a frecvenței fundamentale. 

Am putea apela la definițiile din domeniul fizicii pentru a determina 
metodele de extragere ale acestor caracteristici, dar din punctul de vedere al 
percepției, acest proces s-ar putea confrunta cu unele neajunsuri. Acesta este motivul 
pentru care pitch-ul este extras prin algoritmi mai mult sau mai putin sofisticati, cum 
ar fi algoritmul Yin bazat pe funcţia „diferenţă normalizată medie cumulativă”. 

Sunetele sunt deseori utilizate în industria cinematografică pentru a 
transporta (a furniza) informaţii diegetice, Scopul constă în adăugarea la conţinutul 


Xavier Sevillano, Xavier Valero, Francese Alias, Audio and video cues for geo-tagging online 
videos in the absence of metadata, in proc, of CBMI 2012, pp, 217-222, 

Patrice Guyot, Julien Pinquier, Régine André-Obrecht, /dem, 

B. S, Manjunath, Philippe Salembier, Thomas Sikora, /dem, 

Alain de Cheveigné, Hideki Kawahara, YIN, a fundamental frequency estimator for speech and 
music, in Journal of Acoustical Society of America, 111 (4). pp, 1917-1930, april 2002. 
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xarea automată a conținutului audiovizual 


audiovizual a unor elemente referitoare la mediu 
i] 


despre locația sau per in j 
R a za a p Age. din Jur, sau despre unele obiecte virtuale (primavară, 
p „ Cu alte cuvinte, aceste elemente sonore constau în sunete 
corespund unor surse care n t fi AAE 
So abea > nu pot fi văzute pe ecran. Unele experimente arată că 
p oi ES aa că a şi văzut ceea ce de fapt a fost perceput doar în urma 
Nee or de pe coloana sonora”, Acest principiu este o limitare majoră în 
corelarea sursei de sunet cu un concept vizual real şi duce la unele probleme cum ar 
fi localizarea automata a sursei sunetului (in / out / off). Pentru această problemă, 
primul pas constă în localizarea fetelor (a chipurilor) şi în determinarea așa-numitei 
„rate de activitate a buzelor”. 
Această caracteristică poate fi apoi folosită pentru a determina dacă discursul 


detectat pe coloana sonora poate realmente corespunde unei persoane vizibile pe 
ecran . 


care ar putea da unele informaţii 


3. Estimarea similaritatii 


Odată ce un conţinut este descris prin caracteristicile extrase, următoarea 
problemă de rezolvat este să se estimeze similaritatea conţinutului. Această infor- 
matie are sens doar dacă poate fi corelată cu o scală umană de percepţie a simila- 
ritatii. N-am putea întreba care este modalitatea prin care creierul uman reuşeşte să 
estimeze similaritatea între două melodii? Trebuie să luăm în consideraţie trăsăturile 
locale sau globale, să le comparăm, pentru a determina valoarea acestei similarităţi?'* 

Procesul în sine trebuie să se încadreze în anumite constrângeri, ca de 
exemplu un calcul rapid al distanțelor în cazul unui motor de căutare. Acest obiectiv 
poate fi atins realizând o cuantificare semnificativă şi metode de calcul rapid. In acest 
caz, scorurile de evaluare, rata de precizie şi de recall (recunoaştere), sunt mai mici 
decât cele care se pot atinge cu algoritmi de cuantificare adaptivi de precizie, luând 
în considerare unele proprietăți perceptuale, care însă necesită instrumente de 
estimare a distanţei, costisitoare (cum ar fi „Fuzzy-C means penin iouantiicars, 
distanța pătratică sau Earth Mover Distance pentru estimarea similarități). d en 

Când utilizăm matrice de similaritate , , pentru a compara documente e 
temporale (sub aspectul conţinutului audio sau video), formulăm o Eie ape A 
considerând că similaritatea este un concept care ar trebui să ia v Re sasa ta 
conținutul cât şi structura, în funcţie de timp. Câţiva asc un ia) i eer 
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„similarităţii stilului” pentru regăsirea unui conținut în imagini, sau segmentarea 
temporala pentru a împărţi o înregistrare lungă în programe sau în secvenţe. 

in lucrările precedente s-a considerat că similaritatea stilistică se bazează în 
principal pe apariția elementelor comune în documentele comparate, referitor la 
modul în care au fost generate, produse. Aceste elemente comune, din punct de 
vedere perceptiv uman, denumite invariante de producţie „production invariants”, 
sunt uneori asociate cu o combinaţie tipică de caractere audio-vizuale. O astfel de 
combinaţie poate evidenția faptul că o culoare dominantă (care corespunde la un 
anumit set dat, la o iluminare dată), evoluează în mare în acelaşi mod pe parcursul a 
două documente diferite, sau, la un alt nivel, faptul că o reclamă se repetă la 
momente diferite într-un program TV. Măsurarea gradului de similaritate stilistică 
dintre două înregistrări se bazează pe abilitatea de a cuantifica evoluţia similară a 
unui subset de elemente în anumite momente. 

Să considerăm de exemplu că vrem să comparăm două secvențe temporale 
S1 şi S2 (Fig. 1). Extragem pentru fiecare secvență câţiva vectori de trăsături la 
intervale regulate de timp: trei vectori pentru prima secvență, cinci pentru a doua. 
Fiecare vector este format din 2 valori [vl, v2] corespunzătoare la unele măsuri 
privind conţinutul (luminanta medie şi energia sonoră, de exemplu). În matrice, vom 
identifica doar trăsăturile vectorului care iau aceeaşi valoare. 


Blt tren. PAZ 3 
4|||4 2 3 4 


FE aides TT 


Fig. 1. Compararea a două secvențe 


Când două secvențe vectoriale partajează (au în comun) o sub-componentă 
similară, ea poate fi evidențiată printr-un segment pe diagonală unde câteva trăsături 
(de sperat toate) au aceleași valori de-a lungul timpului. Dacă obiectivul este de a 
identifica sub-secvenţe audio sau video similare din lungi înregistrări, © soluţie ar 
putea fi extragerea unui set de caracteristici, la intervale de timp regulate, pentru a 
calcula această matrice de similaritate, şi căutarea segmentelor diagonale pentru 
localizarea fragmentelor similare, 

Dar trăsăturile ar putea fi analizate si ca serii de timp. Pentru a măsura 
similaritatea dintre două secvențe, una din cele mai populare metode folosite este 
LCSS (Longest Common SubSequence care ar putea fi tradusă prin cel mai lung 
subsir comun, cea mai lungă sub-secvență comună) şi DTW (Dynamic Time 
Warping — care ar putea fi aproximativ tradusă drept similaritatea înfăşurătoarei în 
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timp calculate dinamic) şi Variante ale acestora. Câteva lucrări au propus utilizarea 
unei metrici de similaritate ca instrument de comparaţie. Principala problemă în 
această abordare rezidă în costul computaţional. Pentru a reduce acest cost am putea 


. hes . . ome a1 . 

genera o matrice de similaritate aproximativă”, sau am putea aproxima rezultatul 
22 

unui proces de tip DTW”, 


„Pentru a produce o măsură simplă a similarități între două documente 
audiovizuale, se poate folosi următoarea metrică: 


k, N Y coef on the i” diagonal 
Max D Wr? 


oe waren (1) 
k-17 Nb of coef on the i” diagonal 


unde i şi k sunt indici utilizați pentru a parcurge respectiv toate diagonalele N ale matricei 
de similaritate şi toate dimensiunile vectorului M şi termenii W, corespund funcției de 


ponderare care poate fi aleasă în funcție de aplicație pentru a da o importanță mai mare 
sau mai mică sincronizării dintre cele două șiruri, sau unor trăsături care prezintă unele 
proprietăți interesante pentru segmentarea secventelor în zone specifice, de exemplu. 


Prog. N° 1 


Prog. N° 2 
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Această metrică poate fi utilizată pentru a identifica un fel de „similaritate 
stilistică” între două înregistrări video. Urmând aceeaşi observaţie, o matrice de 
similaritate poate fi utilizată şi pentru a evidenția meta-structurile în fluxuri video 
importante, de exemplu, atunci când ne uităm la matricele obținute pe înregistrările 
TV făcute timp de două zile pe aceleaşi canale, observăm unele blocuri largi, fiecare 
aparținând unui singur program TV. 

În cele mai multe dintre lucrările dezvoltate pe tema estimării similaritatii 
conținuturilor audiovizuale ale înregistrărilor, doar caracteristicile vizuale sau audio 
extrase în mod automat sunt utilizate pentru a calcula metricele dintre vectorii 
descriptivi. 

Această abordare se bazează pe un punct de vedere arbitrar, unde utilizatorul 
final nu este luat în considerare. În funcţie de context, de sarcina de efectuat, sau de 
alte aspecte, putem fi mai mult sau mai puţin sensibili la importanța unor aspecte 
date. De exemplu, în cadrul laboratoarelor japoneze au fost făcute unele propuneri, 
cu scopul de a tine seama de sensibilitatea utilizatorului la background, în estimarea 
similaritatii”’, (fenomen denumit ,,kansei’’). 

Pentru a integra percepția utilizatorului final despre ceea ce ar însemna 
similaritatea dintre două conţinuturi audiovizuale, am propus o implementare 
interactivă”! în care organizarea vizuală a unui mic sub-set de documente, manual 
definită de către un utilizator, este considerată ca o intrare pentru un an sistem 
supervizat care încearcă să găsească metrica şi parametrii care să permită duplicarea 
aceleeaşi organizări spaţiale localizând astfel automat fiecare înregistrare din baza de 
date. 

Primul pas din acest process constă în extragerea unui număr mare de 
trăsături de nivel scăzut din înregistrarea audio-video, care formează un vector de 
descriere pentru fiecare document. Odată ce primele reprezentări simbolice ale 
documentelor selectate sunt plasate pe ecran, sistemul intră într-o buclă cu doi paşi 
până când apare o comportare staţionară a rezultatului: 

- Pasul 1. Selectarea unui sub-set de trăsături printr-un algoritm cu dublu sens 
(Forward Backward Feature Selection algorithm) care poate fi utilizat pentru a 
calcula o distanță normalizată între documentele plasate pe ecran. 

- Pasul 2. Algoritm cu regresie (e-SVR) care încearcă să descopere cei mai buni 
parametri cu scopul de a potrivi distanța normalizată dintre trăsăturile selectate, 
cu distanța euclidiană efectivă dintre reprezentările documentului în spațiul 
ecranului, 

Odată realizat acest calcul interactiv, utilizatorul poate cere sistemului să 
afişeze un subset de documente, sau toare documentele din baza de date, pe ecran. 
Pentru a depăși constrângerile care nu pot fi satisfăcute prin proiecția 2D a spațiului 
vectorilor descriptivi pe ecran, considerăm entitățile vizuale ca fiind nişte particule 
” Sunkyoung Back, Miyoung Cho, Myunggwon Hwang, Pankoo Kim, KANSEI-Based Image 
Retrieval Associated with Color, in Fuzzy Logics and Applications, Lecture Notes in Computer 
Science, Volume 3849, pp, 236-333, 2006, 

Jeremy Philippeau, Julien Pinquier, Philippe Joly, Jean Carrive, Dynamic organization of 

audiovisual database using a user-defined similarity measure based on low-level features, in IEEE 


International Conference on Image Processin IP 2008) S : a ete I.S.A 
j essing (ICIP 2008), San Diego, California, U.S.A» 
12/10/08-15/10/08, IEEE, pp, 33-36, 2008, ) PED Eaa 
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fizice şi implementim un model fizic dinamic, de tip 
»tesort-masă”, denumit „mass spring”, 

Am implementat acest model cu un algoritm Runge-Kutta de ordinal patru, o 
schema de integrare explicit temporală cunoscută a fi foarte exactă şi cu un bun 
comportament pentru o gamă extinsă de probleme. Setul global de documente este 
considerat un graf complet ale cărui noduri sunt particule ponderate şi muchiile sunt 
arcurile, Rezultatul este o reprezentare dinamică unde reprezentările simbolice ale 
documentelor se mişcă încet către poziţia lor finală, »impingand”, dacă este necesar, 
alte documente mai putin similare, care stau în calea lor, 


sistem oscilator armonie 


wee EEE 
aice, 
Fig. 3. Interfața aplicaţiei pentru organizarea asistată a bazelor de date ral satan : 
Patratele din partea stângă sunt reprezentări simbolice ale fişierelor video. ee 
: EA a 
automat extrapolata din elementele de interactiune cu utilizatorul (copyright 


4. Identificarea persoanei 


Ana i aţă, si cognitiv uman rămâne mult mai eficient 
Până în momentul de faţă, sistemul cognitiv uma ramé cater at 
decât un computer în privința identificării unei persoane n somete andi izale 
tipice. Instrumentele automate trebuie să facă față unor dificultè ti NE k p Sun 
rezoluţia slabă sau orientarea feţei, pe care creierul uman le depăşeşte cu a z 
nd se Aoa, i al feței, una dintre cele mai eficiente 
Când se ia în considerare doar aspectul vizual al feței, una dintre cele ean acente 
abordări este „modelarea aspectului”, Ideea acestei abordări este să = ce : E aoe 
O S Fe ' (pe suprafata fetei) si să se deter 
nodurile pe o reţea predefinită „mesh” (pe suprafaţa feței) şi = seo e fetuine 
transformările minime pentru a identifica o persoană cunoscută, we i eee 
i ; ; ii i g * an? f FE 
tratează procesul identificării persoanei abordează ae on alu 
sanii iza) ice gi vizuale. Sc aplicaţiilor este de a găsi 
audiovizual integrând trăsăturile acustice şi vizuale. Scopul aplicat n sete, ac 
: 3 Meyi i a Tale a a a "a a 
â lele vocale şi fizionomice, secvenţe în care apare umit: 
plocama A, ee i i iate unei voci. Totuşi, în anumite aplicații, 
persoană, fiecare figură fiind unic asociate unei i ; 
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asocierea audio-video nu este disponibilă. De pildă, pentru a procesa diverse difuzări 
de televiziune, nu dispunem de un model anterior şi de aceea modelele trebuie 
calculate ad-hoc, în momentul apariţiei persoanei. Identificarea persoanei in 
înregistrări audio-vizuale reprezintă de mult timp o provocare, în primul rând pentru 
că acoperă nişte aspecte ce țin de securitate. Recent, a apărut o tehnologie interesantă 
de a valoriza arhivele audio-vizuale prin intermediul unor funcționalități care permit 
să se restituie prima apariţie a unei persoane sau să se realizeze statistici despre 
intervenţiile acesteia (intervențiile unui politician, de exemplu). Obiectivul actual 
este identificarea personelor care apar în emisiunile televizate fără existența apriorică 
a informaţiilor asupra identității lor25. Aceasta înseamnă că cercetătorii trebuie să 
găsească mijloace de a combina tehnologiile audio si video pentru a detecta si 
localiza o persoană în fluxul audio-vizual şi să poată extrage din coloana sonoră sau 
din anumite indicaţii video (precum textul suprapus) numele persoanei respective. 
Procesarea coloanei sonore presupune mai întâi detectarea segmentelor de conținut 
rostit, peste care se aplică, ulterior, un proces de „diarizare a vorbitorului”. 
Rezultatul acestui proces este un set de clustere. Fiecare cluster grupează nişte 
segmente temporale de sunet în care se presupune că se aude unul şi acelaşi vorbitor. 
Două clustere diferite ar trebui să corespundă la doi vorbitori diferiţi. Acest gen de 
proces se confruntă în mod tradiţional cu câteva dificultăți notorii, şi anume: 
- segmentele unde două sau mai multe voci se suprapun; 
_ cazurile în care mai multi vorbitori au aproape aceeaşi voce; 
- absența informaţiilor anterioare asupra numărului de vorbitori diferiți care apar 
în fragmentul supus procesării. 

Când se realizează manual aceeaşi analiză, dar fără înregistrarea imaginii, un 
subiect uman poate fi mai eficient în privința primului aspect, dar va resimti şi el 
dificultatea celorlalte două. 

Principalele strategii utilizate vizavi de algoritmul de formare a clusterelor 
constau în folosirea ca regulă decizională a relaţiei de probabilitate generalizată 
(GLR — „Generalized Likelihood Ratio”) sau a variației criteriului inferenței 
bayesiene (ABIC „variation of the Bayesian Inference Criterion”) aplicate unui set de 
trăsături audio tradiționale (variația energiei la 4 Hz „4 Hz Energy Variation”, viteza 
de trecere prin zero „Zero Crossing Rate”, coeficienții mel-cepstrali MFCC — „Mel 
Frequency Cepstral Coefficients” etc)’, 

ABIC se defineşte după cum urmează: 


Juliette Kahn, Olivier Galibert, Ludovic Quintard, Matthieu Carré, Aude Giraudel and Philippe Joly 
A presentation of the REPERE Challenge, in Proc, of CBMI 2012, pp. 102-107, Annecy June 27-29, 
2012, , 
Elie El Khoury, Christine Senac, Julien Pinquier, Improved Speaker Diarization System hk 
Meetings, in IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSI 
2009, Taipei, Taiwan, 19+24/04/09, IEEE, pp. 4241-4244, 2009. 
27 Daoudi Khalid, Jérôme Louradour (2009), A Comparison between sequence kernels for SVM speaker 
verification, 4241-4244. In Proc, Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP). 
2 Jean-Luc Rouas, Jérôme Farinas, François Pellegrino, Régine André-Obrecht, Rhythmic unt 
extraction and modelling for automatic language identification, in Speech Communication, 
Elsevier, Vol. 47 N. 4, pp. 436-456, 2005. 
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ABIC = (n, + n, )log|¥|—n, log|Z,|-n, los|2,-2{a+ wa )ioe(n +n,) (2) 


unde n, şi n> sunt mărimile a două cluste 
> sunt matricele de covarianță a celor 
fuzionate, d este dimensiunea vecto 
optimizat. 

Inspirati de lucrările făcute pe coloana sonoră (banda audio), ne putem referi 
acum la unele contribuţii în „diarizarea” fetelor, a figurilor umane. 

Obiectivul este acelaşi, iar procesul urmează aproape identic acelaşi traseu. 

Feţele ce apar pe banda video sunt detectate, urmărite şi marcate. Fiecare față 
urmărită conduce la identificarea unei „urme a feței” sau „marcaj fizionomic” („face 
track”)” şi fiecare față nou marcată conduce la identificarea unei persoane. Sunt apoi 
extraşi descriptorii din marcajele fizionomice în scopul de a operationaliza un 
algoritm de formare a clusterelor al cărui obiectiv este să grupeze în cadrul aceluiaşi 
cluster toate marcajele fizionomice care corespund unei singure persoane. 

În funcţie de contextual aplicativ, construirea unui model fizionomic al 
persoanei poate necesita un proces de preselecție a imaginilor disponibile spre a le 
păstra doar pe cele mai relevante, mai ales atunci când o figură cheie trebuie să fie 
selectată pe o înregistrare, prin urmărire fizionomică (face track). Aceeaşi problemă 
apare, în cazul imaginilor returnate de un motor de căutare atunci când se caută o 
persoană celebră. Este posibil ca nu toate aceste imagini să corespundă cerințelor 
minime de antrenare a unui program de recunoaştere. S-ar putea să ni se returneze şi 
desene sau imagini cu efect artistic care fac persoana de nerecunoscut. 

În astfel de situaţii considerăm că este preferabil să se păstreze doar 
imaginile în care: : = Red: SBR . 
- fata este cât mai mare cu putință: cu cât rezoluţia este mai buna, cu atat mai precis 


re testate care urmează să fie fuzionate; £, £ > şi 
două clustere luate individual sau combinate, 
rilor de trăsături, iar 2 este un parametru 


va fi modelul; 


- fata este cât mai vizibilă, cu cât rezoluția este mai bună, cu atât mai precis va fi 


modelul; 
- fata nu este partial acoperită de parul lung, de vreun obiect sau de vreun efect de 
pene 1 — această condiție nu este 


- fata este pozitionata frontal şi orientată vertica 


obligatorie pentru toate instrum 
trebuie să li se prezinte doar fete in p 
Pentru a selecta automat ima 
propunem să utilizăm patru factori pia 
anume: funcţia care dă o parte din sopr T 
mărimea feței — FS („face size”), raportu 
— FO („face orientation”) . 


trumentele de recunoaştere, totuşi unora dintre ele 


osturi normalizate. 
ginile unde acele proprietăți sunt respectate, 
alizati calculati pe regiuni din figură, şi 
a de piele — RSP („ratio of skin part ), 
— FR („face ratio”) şi orientarea fetei 
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Definim RSP („ratio of skin part”) ca fiind numărul de pixeli care 
corespunde pielii, raportat la numărul total de pixeli ai unei zone rectangulare 
selectate pentru delimitarea feţei. Clasificarea pixelilor în clasele skin şi not-skin 
poate fi realizată cu instrumente euristice simple aplicate asupra trăsăturilor de 
crominanta. 


1 $ 
FS („face size”) este o mărime dată de formula SET unde w şi h sunt 
W. 


respectiv lățimea şi înălțimea zonei rectangulare de delimitare. 

Valoarea ideală a raportului dintre lățimea zonei dreptunghiulare de 
delimitare şi înalțime, este de 3⁄4. Valoarea FR rezultă utilizând raportul dintre 
dimensiunea ideală si cea reală. 


Ta E =) (3) 
max} —,— 
h 4 


FO este o mărime a cărei valoare caracterizează aspectul simetric al feței în 

vedere frontală şi orientarea sa verticală, calculându-se prin: 
ri e 
w wh 


(4) 


unde //,, este momentul statistic centrat de ordinul 0+1. 


Prin experimentele efectuate s-au observat câteva proprietăți interesante ale 
factorilor individuali din care este compusă această metrică. S-a alcătuit o bază de 
date formate din imagini găsite ca urmare a căutării unor persoane foarte cunoscute, 
utilizând un motor de căutare pe web. S-au identificat manual doar pozele în care 
este realmente posibilă recunoaşterea persoanei căutate. S-au cmparat apoi, aceste 
rezultate, cu cele obţinute cu ajutorul unui clasificator Adaboost, cu fiecare dintre cei 
patru factori calculati individual pe fiecare imagine. S-a obţinut o rată de 87% 
clasificare, rezultat ce constituia de fapt principalul scop al cercetării. Dar, când se 
analizează în detaliu ponderile date fiecărui factor, în procesul de decizie, s-a 
observat că factorii FR şi FO au fost ambii implicaţi în proporţie de 31%, FS a fost 
implicat în proporţie de 21% şi factorul RSP a fost implicat în proporție de 17%. Cu 
alte cuvinte, programul de recunoaştere automată este mai mult influențat de 
orientarea feței şi de trăsăturile de raport, dublu decât este influențat de culoarea 
pielii din imagine. 

Deoarece sistemul supervizat a fost antrenat cu imagini selectate manual 
referitor la proprietatea lor de a permite identificarea persoanei reprezentate (înfă- 
țişate), putem trage câteva concluzii despre proprietăţile cognitive care intervin 
preponderant în procesul de recunoaştere a feţei umane. 

Din păcate, în această etapă, trebuie să luăm în considerare aceste aspecte, cu 
precauţie, Unele influențe asupra rezultatelor obținute, pot proveni din diverse cauze 
cum ar fi de exemplu exact opțiunea de a alege poze ale unor persoane celebre, 
artişti, care apar uneori cu machiaj şi coafuri minuţios realizare, cu poze în condiții 
speciale de iluminare. Acest protocol a ridicat câteva aspecte interesante şi necesită 
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experiment i apr ă i 
ta zi e mai aprofundate, pe un număr mai mare de poze, utilizând mai multe 
ginl cu „persoane clasice , bine cunoscute, pentru concluzii mai robuste 


Trăsăturile utilizate pentru diarizarea fetelor (unde termen 
refera la identificarea fetelor într-o secvenţă video şi adnotare 
locali. Putem utiliza diverse alte abordari, cum ar fi 
aparitiilor, dar principala limitare pentru 
inregistrarile video, fetele au in general 
dispoziție doar câteva sute de pixeli pentru i 
prezintă o foarte bună fiabilitate. Pentru a î 


ul de diarizare se 


în care persoana este 
apar pe fundal, în spatele ei?!, 


Fig. 4. Reconstrucția imaginii ,, Histogram Backprojection” plecând de la 
histograma de culoare rezultată după aplicarea metodei de deplasare a mediei (MeanShift) 
pentru localizarea unor posibile nou ocurenfte a unei personae anterior detectate 


Experimente realizate cu o metodă de rezumare video automată au arătat că 
trăsăturile referitoare la îmbrăcăminte sunt indicii foarte semnificative de identificare 
a cadrelor cheie care aparțin unor anumite selecții de secvenţe video. Odată ce o fata 
a fost detectată, regiunea localizată sub zona delimitată pentru cap, poate fi caracte- 
rizată cu trăsături de nivel scăzut (culoare şi textură). De fiecare dată când o nouă 
figură umană este detectată, regiunea corespunzătoare zonei de îmbrăcăminte poate fi 
comparată cu descriptorii precedent identificaţi în înregistrare. In cazul unei bune 
potriviri, apariţiile celor două fete pot fi contopite într-un singur cluster, sau un 
instrument mai sofisticat de recunoaştere a feței poate fi aplicat pentru a confirma 
(sau nu) că cele două fete corespund sau nu, aceleiaşi persoane. is 

Descrierea costumelor poate fi, de asemeni, o aplicaţie în sine, constituind o 
modalitate de a îmbunătăți instrumentele soft de detecție a fețelor umano. Be aps 
cunoscut faptul că astfel de instrumente pot da greş dacă unele ganap Ne la 
orientare, iluminare, centrare, rezoluție etc, nu sunt îndeplinite. Când o persoană a 


i Kg ling Method Using Extracted Knowledge 
31 ël Jaffré. Philippe Improvement of a Person Labeling ! i (e 5 
E VA E, para Conf on Computer Analysis of Images and Patterns (CAIP 2005), 


on Costume, in | icz, W Philips (Eds.), Springer-Verlag LNCS 3691, pp. 


Versailles, France, 5-8/09/2005, A Gagalowi 
489-497, sept. 2005. 
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fost detectată şi descriptorii de îmbrăcăminte corespunzători au fost stocaţi, un nou 
cadru (un frame) care urmează, poate fi analizat şi sub aspectul găsirii unor regiuni 
asociate cu aceşti descriptori. Dacă o astfel de regiune poate fi găsită şi dacă aceasta 
verifică un set minimal de condiţii (formă, mărime, conectivitate etc.), se poate 
decide că persoana corespunzătoare apare în cadru, chiar dacă fata nu a fost detectată 
(v. Fig. 4). 
Pentru clusterizarea aparitiilor unor persoane, pot fi utilizaţi descriptori locali 
şi de culoare a pielii, dar şi culoarea costumului sau descriptorii de textură. Tabelul 
următor dă indicii referitori la contribuţia individuală şi rezultatul scontat când în 
timpul procesului de clusterizare se aplică o fuziune timpurie de modalități de 


analiză. 


Tabelul 1. Rata erorilor de clusterizare (,, cluster error rate ”) obținută prin utilizarea 
diversilor descriptori pe înregistrări tipice TV". 


Culoarea Culoare costum, Textură costum, 
pielii îmbrăcăminte îmbrăcăminte Fuziune 
(Skin color) | (Costume Color) | (Costume Texture) (Fusion) 


56.6 16.8 55.5 13.0 


Rata de eroare a clusterizării dată mai sus, ia în calcul cea mai bună potrivire 
între clusterii de referință şi clusterii automat generati de sistem, şi durata 
conţinutului procesat: 


dur (shot), (min(Nr(shot), Ns(shot)) — Ne(shot)) 


CER = 2 All shots 
Day shots dur (shot), Nr(shot) 


(5) 


unde, pentru un shot dat, dur este durata, Nr şi Ns reprezintă numărul persoanelor 
identificate în referință şi respectiv returnate de sistem, Nc este numărul de potriviri 
corecte pentru acel shot, cuprins între referință şi clusterele sistemului. 

„Ratele de recunoaştere corectă variază în funcţie de conținutul procesat. Rata 
de erori în Clasificarea realizată cu ajutorul metodei fuziunii trăsăturilor este cuprinsă 
între 50% în seriale şi aproximativ 9% pentru talk-show-uri tipice. S-ar putea crede 
că mixarea clusterizării audio şi video ar putea conduce la rezultate mai bune decât 
fiecare din abordările individuale (fie audio, fie video). Dar, rezultatul este un pic 
diferit, Când se mixează elementele audio şi video, am dori să asociem vocea unui 
p Ree A igura acestuia (in cazul nostru, mai precis, cu fata şi îmbrăcămintea, 
ie see ieee iului i audiovizual, fata de pe ecran nu corespunde intotdeauna 
este mult mai dificilă atunci cd A cocee puna toate AlmbciisiAdnatares automat, 
aceleiaşi persoane în indexare ep pl ee 3 corespondență OS e-figură a 

3 anei să aparțină aceluiaşi cluster), 


2 pie p 
Elie El Khoury, Unsupervis j 

E , Unsupervised Video Indexing base nit 

PHD Thesis, University Paul Sabatier, June 201 asa on Audiovisual Characterization of Persons: 
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O ipo ăî i 
poteză comună în procesul de clusterizare constă în a considera că vocea 


şi figura care apar cel mai adesea simultan, aparțin aceleiaşi persoane. Pe baza aces- 


tei presupuneri, a modalitate simplă i 
> uneri, a plă de a fuziona clusterele sepa i i 
zilor audio şi video ale înregi Seen 


strării, constă în a calcula mai întâi matricea de 


coocurente. 
my m Ming 
Ty Ce E sa fr 
(6) 
M mi My> Ming 


unde n, este numărul de clustere vocale, n este numărul de clustere vizuale 
(utilizând descriptorii pentru figură şi costume) şi m, este numărul care arată de câte 
ori vocea i" poate fi auzită atunci când privim fata persoanei j" din înregistrare. 

Inainte de a căuta maximul co-ocurentei este necesară normalizarea. Doi paşi 
sunt obligatorii. Primul constă în calculul densităţii de probabilităte pentru fiecare 
figură condiţionată de voce şi respectiv calculul densităţii de probabilităte pentru fie- 
care voce condiţionată de apariţia simultană a figurii. Aceasta conduce la generarea a 
două noi versiuni ale lui M normalizate (a) rând cu rând şi respectiv (b) coloană după 
coloană. Cele două noi matrice pot fi fuzionate utilizând un operator de fuziune cum 
este max, mean, sau product, între coeficienții aflați în aceeaşi locaţie. In matricea 
care rezultă, cu cât este mai mare coeficientul mj, cu atât este mai probabil faptul că 
vocea i şi figura j aparțin aceleiaşi persoane. 

Rezultatele obţinute printr-un astfel de proces pot fi îmbunătăţite dacă se ia 
în consideraţie că, de exemplu, modul în care este îmbrăcată o persoană este probabil 
să se schimbe pe parcursul unui film. In acest caz, ideea este de a genera într-o primă 
etapă clustere mici de voci şi figuri căt mai precis posibile (cât mai pure, căt mai 
clare) şi apoi să se fuzioneze clusterele vizuale care pot fi asociate aceleiaşi voci 
luând în considerare valorile din matricea de co-ocurență. Două clustere vocale 
asociate aceluiaşi cluster vizual pot fi fuzionate în acelaşi mod. Procedând astfel, pe 
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instrumentelor de identificare automată este datorată inabilitatii acestora de a lua în 
calcul variațiile de voce, sau de aspect, ale unei persoane. Am putea studia şi lua în 
consideraţie ce tip de seturi de trăsături sunt invariante în timp, sau să încercăm să 
modelăm felul în care acestea evoluează pentru a permite identificarea în condiţii de 
variabilitate. 


5. Analiza structurii 


Crearea unui film urmează multe reguli privind diverse aspecte ale 


procesului de producţie: felul în care aparatul de filmat trebuie să se mişte pentru a 
efectua o anumită acţiune; modul în care muzica şi efectele sonore trebuie amestecate 
cu conţinutul vorbit de pe coloana sonoră; numărul de shot-uri în care trebuie 
împărţită o scenă pentru cea mai bună ilustrare a conţinutului. Aceste reguli sunt 
predate în şcolile de producție audiovizuală, precum şi în cărțile dedicate acestui 
domeniu. Deşi unele dintre acestea sunt destul de evidente, trebuie să luăm în 
consideraţie că nu toți consumatorii de conţinut audiovizual au beneficiat de o 
educaţie academică legată de vizionarea televiziunii (spre deosebire de citirea 
conţinuturilor textuale). De exemplu, capacitatea empirică de a privi un film nu este 
atât de evidentă dacă luăm în considerare modul în care au fost percepute primele 
filme din istoria cinematografiei. Putem găsi numeroase relatări (probabil exagerate) 
despre felul în care privitorii ieşeau fugind din sala de cinema cand vedeau, pe ecran, 
trenul întrând în gară în filmul ,,L’arrivée d'un train en gare de la Ciotat”. Chiar si în 


ziua de astăzi este nevoie de timp pentru a aminti publicului faptul că personajele nu 


reprezintă persoane reale. 


Scrierea şi editarea unui film reprezintă activități limitate de capacitatea 


publicului de a-i înțelege conţinutul, precum şi de unele caracteristici de producție. 


Pentru uşurarea acestor procese au fost întocmite o serie de gramatici 


audiovizuale mai mult sau mai putin formale”. În astfel de gramatici aflăm că, pentru 
a extinde cronologia temporală a unei scene, se pot folosi efecte de tranziție treptată. 


Muzica ar trebui să înceapă la sfârşitul unui capitol şi înainte de începutul 


următorului. Aceste reguli pot fi folosite în mod direct pentru a construi un 
instrument de analiză automată“. 


Această proprietate poate fi aplicată şi în cazul structurării evenimentelor 


sportive. Pentru acest tip de conținut, observăm un cadru de producție extrem 
restrictiv, care permite identificarea acțiunilor grație unei analize pe bază de HMM. 
In aceste cazuri, arhitectura HMM poate fi inspirată in mod aprioric chiar de normele 
sportive . 
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» induse de unele aspecte practice 


paragraf anterior, că o aplicație alternativă a analizei 
tății ea fi constituită pe ideea de a identifica structura programului”. 
Am dorit să ne focalizăm pe modul în care evenimentele sunt temporal organizate în 
cadrul conţinutului, pentru a caracteriza faptul că acele reguli de producție pot fi 


aplicate, în mod intenționat, pentru a diferenția un anumit document audiovisual de 
altele din aceeaşi categorie. 


Fig. 5. Cei trei parametri utilizaţi pentru caracterizarea relaţiei temporale dintre două 
segmente: diferenţa dintre poziţiile de început (AB), poziţiile de final (AE), precum si sfârşitul 
primului şi începutul celui de al doilea segment (Suprapunere - Lap) 


Astfel, am propus o metodă generală şi nesupervizată bazată pe relaţiile 
temporale dintre evenimente”. Intrarea o reprezintă rezultatul diverselor procese de 
segmentare temporală aplicate aceluiași document audiovizual. Aceste segmentări 
pot viza identificarea segmentelor în care se pot auzi dialoguri sau aplauze, sau, spre 
exemplu, segmentele unde pot fi văzute figuri sau mişcare. Se presupune că fiecare 
proces de segmentare generează un set de segmente ae Te 9 suprapun şi care nu 
sunt în mod necesar conectate. Dacă se iau in considerare două segmente, sl şi s2, 
generate de două procese de segmentare dieit se pot calcula următorii trei 
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pot fi calculate multe TRM-uri. S-a demonstrat că o algebră poate fi pe complet 
definită pe aceste matrice. Un set de operatori, şi un element neutru se pot defini 
pentru a deduce valoarea unui nou TRM, date fiind două valori cunoscute, sub un set 
minimal de condiţii. Putem observa, moment cu moment, într-un subset al acestor 
TRM unele distribuții specifice, care pot fi folosite imediat pentru identificarea unui 
gen de program TV sau al unui rol jucat de un personaj într-un context dat. 


it 
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Fig. 6. Un TRM tipic pentru o scenă de film cu doi actori, sau o fază a unui joc TV cu doi 
jucători. Cele două segmentări corespund momentelor când cei doi actori sau jucători pot fi 
văzuţi sau auziti. Punctele aliniate vertical corepund shot-urilor în care cele două persoane 
apar simultan. În partea stângă şi în partea dreaptă, punctele reprezintă intervenția alternativă 
a acestor persoane. 


Aceste distribuții pot fi analizate printr-un algoritm de cuantificare. Pot fi 
folosiţi mai multi algoritmi, cum ar fi K-means, sau scheme predefinite, cum ar fi 
cele din relaţia dată de James Allen®*®, cunoscută drept relația Allen. Odată ce acest 
pas de cuantificare a fost aplicat, TRM-urile pot fi ele însele reprezentate printr-un 
mic vector de descriere pentru a identifica numărul relaţiilor temporale. 


Pi 


3 asi Y axis 
Fig. 7. Tr CA Sta puli (rel plane) care corespund relaţiilor Allen „se întâlnesc” (gri 
ermediar), „se suprapun” (gri deschis), „ încep” (eri închis). 
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Folosind histograme normalizate calculate pe TRM cuantificate, putem, mai 
apoi, compara aceste matrice. Aplicând un simplu algoritm de clusterizare am arătat 
în mod experimental că, clasificarea în gen a fost un simplu posibil output al acestui 
proces, şi a fost posibilă obținerea unor rezultate interesante chiar şi în clasificarea de 


tip i pă 

srl Fig. 8, se observă cum au fost identificate 9 clustere (reprezentate pe axa 
verticală). Videoclipurile de la 1 la 12 reprezintă ştiri TV dintr-un set de conținuturi 
din anul 2004 (asociate, în majoritatea lor, cu clusterul 1), documentele de la 13 la 42 
sunt ştiri TV dintr-un set de conținuturi din anul 2003 (clusterul 2). Documentele de 
la 43 la 49 sunt programe de football. Documentele de la 50 la 53 sunt filme. 
Documentele 54 şi 55 sunt două jocuri TV diferite iar documentul 56 este o 
dezbatere politică. Un rezultat interesant este faptul că ştirile TV sunt automat 
grupate (clusterizate) pe ani şi nu pe canale (în ambele clustere sunt amestecate, 
mixate, programele CNN şi ABC). 

Unele documente audiovizuale urmează o schemă predefinită pentru orga- 
nizarea temporală a conţinutului. Este cazul tipic al ştirilor TV (unde întâlnim alter- 
nanta shot-urilor care reprezintă anchor-ul, sigla — de exemplu ,,meteo” — cu shot- 
urile care corespund reportajelor), sau al emisiunilor de sport TV (regulile jocului 
necesită o evoluţie foarte specifică a evenimentelor precum secvența din tenis 
„serviciu / joc / greşeală (fault)” repetată până la sfârşitul meciului) sau al jocurilor 
TV. Pentru acele documente, au existat multe propuneri de identificare a structurii 
folosind gramatici predefinite corespunzând, spre exemplu, HMM-urilor antrenate, 
sau, în cel mai bun caz, direct pe unele trăsături discriminante dedicate. 
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Fig, 8. Rezultat automat al clusterizdrii de documente video. 
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pentru a propune un ins 
în considerație conținuturile mai multor evenimente despre care se 
loc în acelaşi timp. Shot-urile sunt ames 
de a arăta o mică parte din fiecare evenimen 
căutăm seturi de personaje care apar cel mai mu 
apoi un set de clustere care corespund, 
povestirilor şi chiar mai mult, putem evidenția unele re 
sau relatări (un acelaşi personaj 
Caracterizarea persoanelor şi a modu 
audiovizuală, pot constitui de asemenea, 
rolului respectiv. Folosirea anumitor caracteris 


trument de „video deinterlacing””. Aici, ideea este sa se iau 
presupune ca au 
tecate de-a lungul axei temporale cu scopul 
t la un moment dat. Pentru aceasta, 
It in shot-urile succesive. Putem gasi 
in general, acelor evenimente filmate sau 
latii dintre aceste evenimente, 
j apare in două filmări, un acelaşi set etc.). 
lui lor de comunicare, într-o înregistrare 
date de intrare, de input, pentru identificarea 
tici legate de activitatea respectivă, de 


vorbire, durata de intervenție, energia semnalului, valoarea frecvenţei fundamentale 
(pitch value) corepunzând unui singur personaj în cadrul unei ferestre temporale largi 
pot fi folosite într-un clasificator pentru identificarea rolurilor în programele de ştiri, 
precum siglă promo „anchor”, reporter, journalist”, reporter ad-hoc „punctual 
journalist” etc. Pentru a avansa in direcţia structurării temporale automate, putem 
identifica câteva scheme apriorice pentru ceea ce înseamnă un interviu între un 
jurnalist şi relatarea unui martor ocular, de exemplu. Prin aplicarea unor scheme 
anterioare în zonele temporale unde două persoane interacționează, putem identifica 
unele scene specifice cum ar fi interviurile, prezentarea de informaţii, shot-urile de 
tranziție, pauzele ete”. 


Fig. 9. j interlacing” i 
g. 9. Instrumentul de „video deinterlacing” pentru parcurgere (brows-are) automată a une! 
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Characterizarea zonelor | de interactivitate — recunoaştere a rolului 


Fig. 10. Structurarea automată a programului de stiri plecând de la diarizarea caracterului 
folosind rezultatele recunoaşterii rolurilor. 


Concluzii 


Am prezentat câteva abordări dezvoltate pentru a trata problema indexării 
conținutului audiovizual. Primele realizări prezentate au constat în extragerea 
caracteristicilor şi estimarea similaritatilor semnăturilor construite pe baza acestor 
caracteristici. După cum am ilustrat în ultimele paragrafe, din ce în ce mai multe 
propuneri integrează, în prezent, parametri umani în procesul de caracterizare, 
precum şi în etapa de calcul a distanței. Aceasta constituie o îmbunătățire obligatorie 
pentru a putea avansa în acest subiect, şi pentru a putea aborda noi domenii, cum ar fi 
dezvoltarea de noi servicii de asistență la domiciliu. Vom conchide acest capitol cu o 
deschidere către acest domeniu de cercetare. Nevoia indexării audiovizuale în acest 
domeniu merge de la capacitatea de a urmări un pacient la domiciliu, până la 
dezvoltarea de noi dispozitive interactive care pot ajuta pacientul în activităţile sale 
cotidiene. În domeniul proiectării robotului de asistare, cercetătorii se confruntă cu 


multe dificultăţi legate de auto-adaptarea robotului la mediul utilizatorului final. 


Problemele se pun, spre exemplu, în a găsi modalitatea de a-l face pe robot să 
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obțină informații legate de persoana care urmează să îi traseze ordine. Dacă robotului 
i se cere să îi înapoieze persoanei un obiect, acesta trebuie să evite confundarea cu o 
altă persoană atunci când înapoiează acel obiect. Pasul de identificare poate fi inițiat 
printr-o propoziţie (cum ar fi „Salut, mă numesc...”). Robotul trebuie să recunoască 
faptul că persoana se prezintă în acel moment şi că poate să folosească informaţii 
legate de vocea şi figura sa pentru paşii de identificare ulteriori. Alte ordine 
audiovizuale tipice sunt, spre exemplu, iniţiate prin propoziţia „ia acest obiect” sau 
mergi acolo”, În acest caz, înainte de a-şi planifica traiectoria, robotul trebuie să 
observe gestul pe care îl face utilizatorul pentru a determina locul unde trebuie să 
meargă. Este necesară integrarea comportamentului de auto-invatare pentru a-şi 


diversifica oferta de servicii a robotului. 
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Tehnologii de asistare a persoanelor cu deficienţe vizuale 


CHRISTOPHE JOUFFRAIS! 


ABSTRACT. Visual disabilities constitute disadvantages with major impact on 
important areas of society, such as accessibility to information, to professional 
spheres or associations, access to culture and recreation. The present research 
focuses exclusively on spatial cognition in people with visual impairment, either 
directly or through interactive technologies, and visual compensation by these 
interactive technologies. Vision impairment, causes, consequences and the theory 
of spatial cognition for the design of interactive systems for people with visual 
impairments will be detailed in the idea of finding the optimal methods to 
compensate for those deficiencies. 


KEYWORDS: visual impaired persons, neurocognition, visual prosthesis. 


1. Introducere 


; Handicapul vizual consituie un dezavantaj cu un impact major in domenii 
importante ale societății, cum ar fi accesibilitatea la informaţii, la sferele sau 
asociaţiile profesionale, accesul la cultură şi la posibilitățile de recreere. Proiectul de 
cercetare descris, condus în cadrul Institutului de Informatică din Toulouse, 
Universitatea Paul Sabatier, se concentrează exclusiv asupra cognitiei/cunoasterii 
spatiale la persoanele cu deficiente vizuale, fie direct, fie prin intermediul tehno- 
logiilor interactive. Se propun diverse tehnici de compensare a acestor deficiențe 
vizuale prin tehnologii interactive. Deficientele de vedere, cauzele, consecinţele lor şi 
cadrul teoretic al cognitiei spatiale pentru proiectarea de sisteme interactive destinate 


persoanelor cu deficienţe de vedere sunt detaliate în ideea găsirii metodelor optime 
de compensare a acestor deficienţe. 


2. Contextul şi cadrul teoretic al cercetării 


"a Ari ~ AA A a 
r Cercetările prezentate in acest capitol se centrează pe cognitia spațială in 
ul persoanelor cu deficiențe vizuale, pornind de la aspectele fundamentale legale 
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Tehnologii de asistare a persoanelor cu deficiente vizuale 


de percepție, până la aspectele aplicate în proiectarea şi evaluarea dispozitivelor d 
înlocuire a capacităților senzoriale vizuale prin alte alternative Doral Studiul z 
bazează pe disciplinele complementare, de la neuroştiințe şi psihologie experimentală 
(care permit să înțelegem capacitățile şi procesele senzoriale şi cognitive insotind 
deficiențele vizuale) către proiectarea tehnologiilor interactive augmentative, a 
interfetelor grafice pentru utilizatori (GUI), în studiul interacțiunii om-maşină pentru 
evaluarea impactului asupra cognitiei spatiale a persoanelor cu deficiențe vizuale. 


Experimente 


* Haptic (tactil) 


Alocentric 
(hartă multimodală 
interactivă) 


Calitatea 
reprezentărilor 
generate 


Alocentric 
(harta) 
egocentric 


Auditiv egocentric (procedura) 
(hartă interactivă 


rutieră) 


Perceptie 
sensorială 


Pregătire 


Evaluare 


Fig. 1. Schema generală a proiectului: ansamblul etapelor de cercetare pentru realizarea 
tehnologiilor de asistare 
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cognitive pentru deficienţele de vedere se bazează pe studii de psihologie experi- 
mentală, care permit proiectarea unor dispozitive de supleanță (de suplinire) a 
funcţiilor vizuale. Fiecare prototip trece printr-o fază de evaluare, evidentiindu-se 
cresterea autonomiei persoanei si permite abordarea problemei cunoaşterii spatiale 
atunci când este mediată prin tehnologii interactive. 


2.1 Contextul mondial 


Organizaţia Mondială a Sănătăţii (OMS) a declarat existența unui număr de 
314 milioane de persoane cu deficiențe de vedere la nivel mondial, din care 15% sunt 
orbi. Cu toate că la nivel global, majoritatea afecţiunilor care pot duce la pierderea 
vederii ar putea fi evitate, se constată o creştere a numărului de persoane cu 
deficiențe de vedere in toate țările (industrializate sau nu), estimat la peste 600 
milioane in 15 ani, din cauza creşterii speranţei de viata şi a proportiei mari de 
nevăzători în rândul persoanelor în vârstă. 

Într-o societate informaţională preponderent vizuală ca a noastră, o insufi- 
cienţă vizuală generează un handicap semnificativ, în multe domenii importante de 
activitate. Un raport publicat de către Institutul Naţional Canadian pentru Nevazatori 
(Simson? et al. 2005) arată clar că aceste persoane au nevoi de autonomie identi- 
ficate, încă nerezolvate, pentru care sunt dispuşi să utilizeze tehnologii de asistare. 
Autonomia! poate fi definită ca fiind dreptul şi capacitatea unui individ de a-şi trăi 
viata aşa cum crede de cuviință. Pierderea de autonomie poate proveni din pierderea 
unei capacități sau pierderea dreptului de a-şi alege liber conduita. Activităţile în care 
persoanele cu deficiențe de vedere suferă de handicapuri importante sunt comuni- 
carea în scris şi orientarea spaţială (înţelegerea, perceperea mediului, a locației unui 
Obiect, capacitatea de a circula, de a se dirija către o anumită ţintă). 


2.1.1 Deficientele vizuale 


Orbirea absolută este definită printr-o acuitate vizuală sub 1/100 după 
corecție sau când câmpul vizual este sub 20° — norma standard fiind de 180°. 
Acuitatea vizuală este raportul dintre distanţa de la care un obiect este văzut de către 
subiect (numărătorul), şi (numitorul) distanţa de la care acelaşi obiect, fără a schimba 
caracteristicile sale, este văzut de către un subiect care ur are nici o deficiență 
vizuală, De exemplu, o acuitate de 6/60 semnifică faptul că obiectul observat la 60 de 
metri de câtre o persoană cu vederea normală, trebuie apropiat la 6 metri de persoana 
cu deficiență vizuală, pentru a fi perceput în acelaşi fel, Actualmente, OMS se află la 
A rel Mae a clasificărilor internaţionale a maladiilor pentru reolasificarea 
peste aoa nae defio AA BaN reziduala şi Shu) vizual, au 
vizuale fie în funcție de diminuarea câm lui | 8 SA acna da acăgdarea nouit 

âmpului vizual: 
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Categoria l-a: acuitate vizuală binoculară corec 
superioară sau egală raportului 1/10 cu un câmp vizual mai mic de 20. 
e Categoria a l-a: acuitate vizuală binoculară co 


rectată inferioară raportului 1/10 
şi Superioară sau egală raportului 1/20; practic, subiectul poate număra degetele 
mâinii de la 3 m. 


tată inferioară raportului 3/10 și 


Următoarele categorii corespund noţiunii de cecitate (a fi orb, nevăzător): 


e Categoria a I-a: acuitate vizuală binoculară corectată inferioară raportului 1/210 
şi superioară sau egală raportului 1/50; practic, subiectul poate număra degetele 
mâinii de la 1m, dar nu de la 3m. 

e 


Categoria a IV-a: acuitate vizuală binoculară corectată inferioară raportului 1/50; 
percepție luminoasă conservată, încă prezentă; practic, subiectul nu poate număra 
degetele mâinii de la 1m, iar câmpul vizual este inferior valorii de 5°. 

e Categoria a V-a: cecitate/orbire absolută, lipsa percepţiei luminoase. 


2.1.2 Principalele cauze ale deficienţelor vizuale 


Numeroase maladii pot afecta vederea. Cataracta este prima cauză de orbire, 
fiind la originea a mai mult de 40% din cazurile de scădere acută a acuitatii vizuale. 
După INCA (Institutul Naţional Canadian de Nevăzători), în peste 50% din cazuri, 
persoanele au orbit ca urmare a unei cataracte. Această maladie atinge mai mult de o 
persoană din cinci după vârsta de 65 de ani, mai mult de o persoană din trei după 
vârsta de 75 de ani şi aproape două din trei după vârsta de 85 de ani. Aceasta 
corespunde la opacifierea cristalinului provocând scăderea graduală ce ae 
vizuale până la orbire, dacă nu este tratată la timp. Tratamentul este chirurgica 
(extragerea cristalinului şi implantarea unei lentile intra-oculare). san chi 

Glaucomul este a doua cauză de orbire, antrenând o presiune A ala 
care duce la compresia nervului optic, pentru care nu exista pir i a a Sa 
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2.2 Cadrul teoretic 
2.2.1 Cartografierea cognitivă 


În proporții diferite, fiecare dintre noi avem conştiinţa spațială a mediului în 
care trăim. Datorită stimulărilor senzoriale în general (şi informaţiilor provenind de 
la organele noastre de simţ), reuşim să cunoaştem şi să înțelegem diferitele locuri şi 
situații. Aceste date recepționate senzorial, pe de o parte provin direct din mediu, 
datorită percepției directe a obiectelor care pot fi atinse, pipăite, mirosite, auzite, 
văzute (sau gustate), iar pe de altă parte provin din informaţiile geografice parvenite 
prin intermediul altor surse, mai putin directe cum sunt internetul, cărțile, televi- 
ziunea, radio, jurnalele, hărţile, machetele sau pur şi simplu conversaţia. Integrarea 
acestor prime informaţii provenind din experiență şi din învățare este un proces 
complex cunoscut sub numele de cartografiere cognitivă. Aceasta înglobează un 
ansamblu de operaţiuni prin care individul obţine, codează, stochează, îşi aminteşte şi 
manipulează informaţia legată de mediul său spaţial. Această informație acumulată 
corespunde atributelor, caracteristicilor şi poziţiilor relative ale lucrurilor si 
persoanelor in mediu şi este indispensabilă in procesul adaptiv de luare a unei decizii 
spaţiale (v. Downs’ and Stea 1973). 

Cunoaşterea şi înțelegerea mediului joacă un rol important în planificarea şi 
efectuarea oricăror deplasări (Garling® & Golledge 2001). Acestea permit de exemplu 
identificarea unui supermarket în apropiere, selectionarea celui mai bun drum pentru 
a putea ajunge la serviciu, sau decizia asupra locului in care am dori sa ne petrecem 
vacanța. Aceste procese evoluează cu vărsta, experiența, învățarea, dar şi cu apariția 
deficienţelor senzoriale. O hartă sau o reprezentare cognitivă (Tolman’ 1948) este 
deci o abstracție mentală (mai mult sau mai puţin corectă) a unui mediu, elaborată de 
un individ la un moment dat. Cartografierea cognitivă poate fi considerată ca un 
model intern al lumii in care trăim (Golledge* & Stimson 1997). Una dintre caracte- 
risticile reprezentărilor mentale spaţiale este distincţia dintre cele două tipuri de 
reprezentări denumite respectiv hartă sau drum. 

Reprezentarea de tip hartă, maparea, este o reprezentare a unui ansamblu 
elaborat într-un cadru de referință alocentric, deci în care sistemul de coordonate este 
extern, Această reprezentare este bazată pe o cunoaştere a proprietăţilor topografice 
ale mediului, implicând localizarea obiectelor în raport cu un sistem de coordonate 
fixe. Este deci o reprezentare independentă de poziţia individului. Rolul mapării este 
crucial în capacitatea persoanei de a determina configurația locurilor situate înafara 
câmpului său vizual, sau în stabilirea relaţiilor spatiale între locuri care nu au fost 
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oate, încă, explorate fizi i : i 
$ TOR ` tipe aia oe unei reprezentări de tip hartă este adeseori 

Reprezentarea de ti ER in zone, fiecare zonă fiind descrisă succesiv. 

RERA ar ap hartă, contrar reprezentării de tip drum, permite o 
reorganizare a informațiilor spațiale (întoarceri găsirea unor E 

y ‘ , scurtături etc.). 

a Reprezentarea de tip drum este elaborată într-un cadru de referință ego- 
centric, deci intr-un sistem de coordonate integrând reperele corpului, poziţia celui 
care navighează. Cunoaşterea spaţiului se face plecând de la înregistrarea secventiala 
a punctelor de reper pe măsură ce individul navighează în acest mediu (de exemplu 
pe masura parcurgerii unui traseu). Acest tip de cunoaştere este puţin plastică în 
sensul în care ea nu poate fi reorganizată (dacă un punct de reper a dispărut, sau dacă 
navigatorul a deviat, structura este întreruptă). Aceast tip de reprezentare pare a fi 
suficient pentru cazul în care deplasarea se realizează într-un mediu cunoscut, fami- 
liar, fără obstacole. 

Simţul vizual este cel preponderent la om. Când se primesc simultan infor- 
matii vizuale şi informaţii senzoriale de alt tip, subiectul interpretează frecvent infor- 
matiile vizuale ca fiind corecte, chiar dacă acestea nu sunt. Acest fenomen a fost 
numit „captură vizuală” (Smyth? & Wing, 1984) sau dominanţă vizuală. Un exemplu 
pentru acest fenomen este conflictul vizual-tactil. Când un obiect este perceput vizual 
într-o anumită formă (oval, de exemplu), în timp ce el este perceput tactil sub o altă 
formă (de exemplu în forma literei C), percepția vizuală este favorizată (Smyth & 
Wing 1984). Deci uzual, percepţia vizuală este cea care furnizează competențele şi 
resursele de bază, permițând principalele interacțiuni cu mediul. Vederea permite 
conştientizarea propriei poziţii şi actualizarea informaţiilor care provin din mediu în 
scopul navigării şi construirii unei hărți. Lissi maht e 

O consecință a dominantei simțului vizual este că există diferenţe în utili- 
zarea celor două tipuri de reprezentare (hartă versus drum), pentru vazatori $i 
nevăzători, dar şi între nevăzătorii congenitali şi cei tardivi. 


2.2.1.1 Navigarea 


Termenul de navigare defineşte comportamentul de deplasare orientată către 
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Cea de a doua etapă (alegerea itinerariului) impune ca navigatorul să facă o 
legătură cognitivă între punctul de plecare (de exemplu poziția sa curentă) şi 
destinaţia dorită, alegând un itinerariu care leagă cele două puncte. În numeroase 
medii este dificil să se atingă direct o destinaţie. Existenţa multiplelor obstacole 
(imobile, râuri) împiedică adeseori deplasarea în linie dreaptă. O rețea de posibile 
trasee permite calculul multiplelor itinerare alternative. Alegerea unui anumit traseu 
depinde de numeroşi factori externi ca de exemplu distanța de parcurs, comparată, 
sau factori subiectivi ca sentimentul de securitate, simplitatea, stresul generat de 
anumite etape, sau punctele de interes care se gasesc pe traseu. Această alegere poate 
fi făcută înainte de plecarea pe traseu, ceea ce permite obținerea instrucțiunilor de 
navigație incluzând punctele de decizie şi de orientare (Timpf'' ş.a. 1992). 

Cea de-a treia etapă, păstrarea itinerariului corect, constă in a se asigura că, 
în timpul deplasării, itinerariul ales nu a fost părăsit. Acest lucru implică ca cel care 
se deplasează să facă alegerile corecte la nivelul punctelor de decizie. Făcând acest 
lucru, călătorul îşi evaluează în mod constant orientarea în spațiu şi se poziţionează 
pe harta sa cognitivă. Reperele joacă un rol important în această sarcină şi sunt 
verificate în mod regulat. In plus, deseori, navigatorul trebuie să iasă din itinerariul 
ales, de exemplu, pentru a urma trotuarele sau pentru a evita obstacolele, înainte de a 
se întoarce la acesta. Cea de-a patra etapă, care constă în recunoaşterea destinaţiei, 
completează procesul de navigare. 

Un alt model de navigare umană, propune Adams” (1997), doar pentru 
pietoni. Acesta include 3 faze: planificarea preliminară a itinerariului, navigarea 
globală şi navigarea fină. 

Planificarea preliminară constă în a alege o destinaţie şi a decide care este cel 
mai bun drum pentru a ajunge acolo. Ca şi în modelul lui Downs and Stea!” (1977), 
această fază rezultă din mentalizarea unui itinerar de urmat, compus dintr-un anumit 
număr de puncte de decizie legate între ele prin segmente de drum mai mult sau mai 
putin lungi. Regăsim aici aceiaşi factori de mediu (Criterii legate de distanţă, de timp 
al parcursului, de cunoaştere a priori a itinerariului) şi subiectivi (noţiuni de securi- 
tate, de plăcere sau de stres, de exemplu) în ceea ce priveşte alegerea itinerariului. 
Intâlnirile cu formatori în domeniul locomotiei şi cu persoane cu deficienţe vizuale 
arată că aceste noțiuni subiective sunt deosebit de importante în cazul navigarii 
persoanelor cu deficienţe vizuale. 

Adams separă, apoi, navigarea în două faze numite navigare fină şi globală. 

Navigarea globală constă în a lega între ele diferitele puncte de reper care pot 
reprezenta dificultăţi de locomotie (de exemplu o traversare a unei străzi sau o scară) 
sau intersecţii, apoi a alege direcția care trebuie urmată în intersecții. 
ie Navigarea fină este o sarcină imediată care constă în înfruntarea obstacolelor 
ivite în calea locomofiei, indiferent dacă sunt prevăzute sau neprevăzute. Aceste 
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traficul rutier. Navigarea fină este însoțită, în general, de o Sate 


locomotorii (in sensul biomecanic al te 
vazatori, ca fazele de navigare fină nece 
gare globală. 


Aceste două modele nu se situează i 
eaza exact la acelaşi nivel şi sunt comple- 
mentare. Faza de planificare propusă de Adams! (1997) conţine fazele de a 
şi de alegere a itinerariului ale lui Downs and Stea! (1977). i 
Etapele următoare ale lui Downs and Stea (păstrarea itinerariului, recunoaş- 
terea destinaţiei) sunt incluse, ambele, în navigarea globală a lui Adams. Notiunea 
care apare in acest moment este cea de navigare fină, care capătă o importanță 


un semafor şi 


re a strategiei 
rmenului). Adams a remarcat, la subiecții 


sită mai multă atenţie decât fazele de navi- 


„ deosebită la persoanele cu deficienţe vizuale deoarece se referă la schimbarea 


strategiei locomotorii atunci când pietonul trebuie să depăşească anumite dificultăți. 

i In aceste două modele, este important ca navigatorul să îşi poată actualiza 
poziția şi orientarea pe măsură ce se deplasează. După cum am văzut, reperele 
vizuale sunt foarte utile. Totuşi, există alte metode care permit integrarea acestor 
informaţii în timp (Loomis!€ et al. 1998; Gallistel'” 1990). 

Se pot cita aceste metode clasificate în funcție de cinematică. Navigarea 
bazată pe poziţie (numită ,,pilotare”) are la bază semnale externe care indică poziția 
şi orientarea călătorului. Acest tip de navigare se realizează, în general, cu ajutorul 
unei hărţi externe sau interne. Navigarea bazată pe viteză (numită „estimare dedusă” 
engl. dead/ded-reckoning sau „integrarea căii urmate”, path-integration) este funda- 
mentată pe semnale externe sau semnale proprioceptive (senzații interne legate de 
mişcare), care indică viteza călătorului. Deplasarea şi direcția în raport cu punctul de 
origine sunt obţinute prin integrarea vectorului viteză. In sfarsit, navigarea bazata pe 
accelerare (numită „navigare inertiala”) implică o dublă integrare a De ated 
liniare si angulare ale călătorului, pentru a deduce de aici schimbarile de panie şi de 
direcție survenite de la plecare. In acest caz, nu este necesar niciun semnal extern. 


2.2.2 Cognitia spațială a persoanelor cu deficiențe vizuale 


cesele cognitiei spatiale, în general, şi ale 
lexe. Vederea furnizează informații 
foarte scurtă având în special, 
diului în momentul deplasării 
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2.2.2.1 Impactul lipsei vederii asupra cogniției spatiale 


ye Fletcher (Fleteher” 1980) a clasificat cercetările cu privire la capacităţile 
spatiale ale orbilor în trei mari teorii: deficienta (deficiency), ineficienta 
(inefficiency) si diferenta (difference). 

Teoria deficientei, născută din unele lucrări mai vechi ale lui von Senden, 
stipulează că orbii din naştere sunt incapabili să dezvolte o înțelegere generală a 
spațiului, deoarece nu au avut niciodată experiența proceselor vizuale necesare 
pentru a înțelege aranjamentele spatiale complexe. Această teorie are un interes 
istoric numai datorită faptului că numeroase lucrări mai recente au discreditat-o. 

Teoria ineficientei afirmă că persoanele cu deficiențe vizuale pot înțelege gi 
manipula mental concepte spațiale, însă, deoarece informaţia este bazată numai pe 
indici auditivi şi haptici, această cunoaştere este inferioară celei bazate pe vedere 
(Rieser” et al. 1986: de exemplu). Orbii din naştere au tendința de a reconstrui 
spaţiile parcurse ca itinerare liniare constituite dintr-o secvență de drumuri legate 
între ele prin puncte de decizie (Casey?! 1978). Această teorie sugerează că 
extrapolarea acestor drumuri la o reprezentare globală este dificilă, chiar imposibilă. 

Teoria diferenţei sugerează că persoanele cu deficiențe vizuale posedă 
aceleaşi capacităţi de a trata şi de a înțelege concepte spaţiale şi că, deşi echivalente 
din punct de vedere funcţional, acestea sunt elaborate diferit şi, deseori, mai lent 
(Juurmaa? 1973). Passini” et al (1988) afirmă că diferențele observate în ceea ce 
priveşte anumite sarcini spatiale între văzători şi orbi pot fi explicate prin variabile 
indirecte, cum ar fi accesul la informaţie (de exemplu, hărți), experiența (văzătorii 
sunt mai experimentați în elaborarea de schițe sau de modele) sau stresul. Millar”* 
(1994) susţine că, deşi simţurile nevizuale sunt „inferioare” pentru a coda informația 
spațială, persoanele cu deficiențe vizuale au acelaşi potential ca şi văzătorii pentru a 
dezvolta o reprezentare integrată a spaţiului. Această afirmaţie este confirmată de 
numeroase lucrări care arată că persoanele cu deficiențe vizuale sunt capabile să 
construiască hărţi cognitive (a se vedea, de exemplu Casey” 1978; Dodds” et al. 
1982; Hollyfield & Foulke” 1983). 


” Fletcher, Janet F,, Spatial Representation in Blind Children, 1: Development Compared to Sighted 


Children, Journal of Visual Impairment and Blindness 74,381-85, 1980. 


* Rieser, John J,, David A, Guth & Everett W. Hill, Sensitivity to perspective structure while walking 
without vision, Perception 15,173-88, 1986, 
^ Casey, Steven M,, Cognitive mapping by the blind, Journal of Visual Impairment & Blindness 
72,297-301, 1978, 
% Juurmaa, Jyrki, Transportation in Mental Spatial Manipulation: A Theoretical Analysis, American 
a Foundation for the Blind Research Bulletin 26.87-143, 1973, 
zanni, Romedi & Guylène Proulx, Wayfinding without vision, Environment and Behavior 20.227- 
, 1988, 
* Millar, Susanna, Understanding and representing space: Theory and evidence from studies with 
x blind and sighted children, Oxford University Press, USA, 1994. 
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2.2.2.2 Influenţa vârstei de apariţie sau a duratei cecității 


În prezent, discuția este orientată mai degrabă către teoria diferenței, în care 
vârsta apariției sau durata cecititii ar putea avea o influență asupra cunoştinţelor 
spatiale şi a mecanismelor care permit dobândirea acestora. Nevazitorii tardivi 
(NVT) au avut o experiență vizuală care ar trebui să le permită să beneficieze de un 
avantaj în ceea ce priveşte cognitia spaţială față de nevăzătorii precoce sau 
congenitali (NVP). Într-adevăr, s-a observat că subiecții văzători cu ochii acoperiţi gi 
NVT reuşesc mai bine decât NVP în majoritatea sarcinilor de navigare, 

Se pare că există diferente cognitive între orbii congenitali, orbii tardivi gi 
văzători, dar că, în general, acestea nu au consecințe asupra realizării sarcinilor 
spaţiale. Diferenţele observate sunt legate, probabil, de o dificultate de învățare a 
tehnicilor de explorare a spaţiului şi un acces mai mic la informaţiile externe în cazul 
persoanelor cu deficienţe vizuale. Probabil că lipsa consecințelor asupra realizării de 
sarcini spatiale rezultă din folosirea intensivă a altor modalități senzoriale si din 
punerea în aplicare a unor moduri diferite de explorare. 


2.2.2.3. Dificultăţi, necesităţi şi factori care influențează navigarea 
persoanelor cu deficienţe vizuale 


Odată cu progresul tehnologiilor de asistare pentru comunicarea scrisă, unul 
dintre cele mai mari impacturi ale deficienței vizuale este, fără nicio îndoială, pier- 
derea mobilității autonome. Potrivit unui studiu efectuat de Ministerul Sănătăţii din 
Franţa (Sander et al. 2005), 58% dintre persoanele cu deficienţe vizuale care au o 
condiţie fizică ce le permite să se deplaseze au declarat că întâmpină probleme în 
cazul deplasărilor în exterior. 29% au declarat că nu sunt capabili să se deplaseze 
singuri, iar 15% pot să se deplaseze singuri, dar numai pe itinerare cunoscute, De 
asemenea, deficienta vizuală este o frână în ceea ce priveşte mobilitatea în interior 
pentru 40% dintre subiecți. ot Masi 

Pentru persoanele cu deficienţe vizuale, navigarea reprezintă o sarcină relativ 
complexă de realizat, care generează un stres important, Într-adevăr, yaua Aer 
zează nu numai informaţii cu privire la deplasările efectuate; ci si în onea Sopa, este 
dispunerea spațiului apropiat şi îndepărtat (Foulke 1982; out a n Si sae! i 
1985), În consecinţă, în ciuda utilizării câinelui ghid sau a pet y UN ma ie Sa 
rămâne aproape imposibilă şi periculoasă atunci când traseu e neu c : M3 ab 
cuprinde suficiente indicii nevizuale (de exemplu, în zonele n e A 


noise Lelièvre & Anne Tallec, Les personnes 


: + Cala arie.-hristine Bournot, Fra 
Sander, Marie-Sylvie, Marie-Christine Bot handicaps = incapacités - dépendances (ed.) 


ayant un handicap visuel. (PRO, une P'enquete 
> 7 e solidarités, 2005, i te FI a ace 

nae ped passer and the mobility af blind pamitan Agia abito 

Devel sant ona ohyslotogical foundations, ed. by M. Potegal, 55-76: New York: sa. 

oul ( | ican Foundation for the Blind, Research 

is for mobility, American 

Foulke, Emerson, The perceptual basis for mo 

Bulletin, 1971. 

Strelow, Edward W., What is needed for A man 

maps—lessons from the blind, Psychological re 


29 


ory of mobility; Direct perceptions and cognitive 
92.226, 1985. 


45 


CHRISTOPHE JOUFFRAIS 


Dificultăţile variază în funcție de mediu, de densitatea populaţiei, de climă, d 

constrângerile arhitecturale, de absența reperelor etc., şi sunt percepute diferit în 

funcţie de individ. Deşi toate modalităţile senzoriale (auz, pipăit, miros, masa”) 

sunt mobilizate în timpul unei deplasări, acestea nu sunt suficiente întotdeauna la 

persoanele cu deficiențe vizuale pentru a se deplasa în mod sigur şi autonom (Wolff? 

et al. 2006). Dejeammes™ şi colaboratorii (2008) au identificat patru nevoi primor- 

diale legate de fiecare deplasare: 

(1) securitatea (evitarea accidentelor de circulaţie, evitarea căderilor şi a şocurilor); 

(2) localizările personale (unde sunt, pe ce, între ce şi ce ...?) şi relative (strada / 
străzile / clădirea / magazinul / stația de transport X este oare la dreapta / la 
stânga / in fata?); 

(3) orientarea (oare merg în direcția buna?); 

(4) informaţia (ce este în jurul meu în ceea ce priveşte infrastructura / activităţile / 
informațiile scrise disponibile?). 

Aceste diferite nevoi vor fi satisfăcute datorită utilizării unor indicii nevi- 
zuale cu privire la parcurs, puse în legătură cu hărțile mentale preexistente. Strategii 
suplimentare cum ar fi număratul în cazul distanţei (de exemplu, numărul de paşi 
efectuaţi), luarea în considerare a timpului (durata scursă) şi a etapelor de parcurs (de 
exemplu, a o lua la dreapta după cea de-a treia stradă) vor permite efectuarea depla- 
sărilor diminuând stresul. 


2.2.2.4 Modurile de compensare senzorială 


În general, se admite că persoanele oarbe compensează lipsa informaţiei 
vizuale printr-o utilizare mai mare a informaţiilor furnizate de sistemele lor senzo- 
riale intacte. Cu toate acestea, datele empirice rămân foarte contradictorii. Această 
incoerență se poate datora, în parte, diversității participanților din diferitele studii 
(importanță, durată, etiologia deficienței; vârsta subiecţilor, tipul sau lipsa unui grup 
martor corespunzător), utilizării unor sarcini ce nu sunt complet identice etc. (a se 
vedea Millar” 1982; Roder & Neville” 2003; Thinus-Blane & Florence Gaunet” 
1997: pentru o discuţie detaliată). 


Simţul maselor nu este un al şaselea simţ fiziologic. Este o abilitate dobândită, de a resimti prezența 
unei mase mai mult sau mai puţin importante (zid, coloană, streaşină) sau discontinuitatea acesteia 
(de exemplu, prezența unui culoar). Aceasta se datorează, probabil, percepției simultane a unor 
indicii auditive si somestezice foarte slabe, 

Wolff, Marion, Philippe Cabon, Gérard Uzan, Julien Nelson & Stanislas Couix, Déplacement 
urbain de personnes non-voyantes; étude multi-factorielle des difficultés et apport d'une nouvelle 
interface pour le recueil des données, Paper presented at the Ergo-lA 2006, Biarritz, 2006. 
Dejeammes, Maryvonne, Gérard Uzan, M'Balo Seck & Catherine Sidot, Déplacements des 
déficients visuels en milieu urbain: analyse des besoins en sécurité, localisation et orientation et 
pistes d'évolution, CERTU, 2008. 

Millar, Susanna, Studies of the deaf and the blind, The Pathology 
Taylor & Francis, 1982, 

Roder, Brigitte & Helen Neville, Developmental functional plasticity, Handbook of 
neuropsychology, ed. by J. Grafman & ILH, Robertson, 23 1-70: Elsevier, 2003. ` 

Thinus-Blanc, Catherine & Florence Gaunet, Repre. 
spatial sense?, Psychol Bull 121.20-42, 1997, 


and psychology of cognition, 135: 


sentation of space in blind persons: vision as 4 


un anumit număr de sarcini haptice 


C n unele sarcini în care vederea joacă 
un rol important (a se vedea Zwiers? et al. 2001a; Zwiers” et al. 2003), 


2.2.2.5 Navigarea fara vedere 


Pentru a studia navigarea în absenţa vederii, Loomis’ a definit cinci procese 
generale: (1) detectarea, (2) memorarea unui traseu, (3) stabilirea unei reprezentări 
globale a mediului, (4) selectarea itinerarelor şi (5) realizarea acestor itinerare. 

Primul proces (detectarea) se referă la dobândirea unor informaţii cu privire 
la propria deplasare şi/sau la repere înconjurătoare, oricare ar fi modalitatea senzo- 
rială implicată. 

Memorarea unui traseu corespunde unei secvențe de segmente, reorientări, 
depinde de denaturări de percepție şi de eventuale pierderi de memorie. 

Cel de-al treilea proces are la bază informaţiile dobândite în timpul deplasării 
pentru a elabora o reprezentare spaţială globală de tipul hărţii. Informaţiile incluse 
aici ar putea fi obiecte întâlnite, puncte de interes sau deosebit de importante. 

Cel de-al patrulea proces permite alegerea unor itinerare pe baza memorării 
unui traseu sau a unei reprezentări globale. 

Cel de-al cincilea procedeu permite efectuarea deplasării. 

Fiecare dintre componentele navigării pedestre va deveni dificilă prin defi- 
cienta vizuală. Se observă o diminuare a sentimentului de securitate, în raport cu o 
lipsă aproape totală a anticiparii perceptive, precum şi o dificultate importantă de a 
păstra o orientare corectă, ca urmare a diminuării reperelor. Lipsa vederii reduce 
percepţia informaţiilor cu privire la mediu, ceea ce are drept consecință o Snoro 
între câmpul apropiat şi cel îndepărtat. Astfel, dobândirea de informaţii cu privire la 
în principal, modalitatea somestezică care include 
informaţii tactile, termice, proprioceptive (percepția de sine), Ce (orentis 
propriei deplasări) şi nociceptive (percepția durerii). Sursa cea mai Sia săpa 
percepţia tactilă care poate fi pasivă sau activă Spa : las cers earn 
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(Millar“! 1994). Persoanele cu deficienţe vizuale elaborează, reprezentări mentale de 
tip drum. Experiențele lui Tinti’ et al (2006) temperează aceste afirmaţii, arătând că 
experiența vizuală nu este absolut necesară pentrua dezvolta reprezentări spaţiale 
complexe de tip hartă. 


2.2.3 De ce se studiază cognitia spaţială a persoanelor cu deficiențe 
vizuale? 


Deşi vederea este simțul cel mai eficient pentru a obţine informaţii spaţiale, 
persoanele oarbe sunt capabile să utilizeze indicii senzoriale (auditive, olfactive sau 
somestezice) sau informaţii scrise, desenate sau orale pentru a dobândi o cunoaştere a 
mediului lor geografic. 

Studierea cognitiei spatiale a persoanelor cu deficienţe vizuale are mai multe 
avantaje, teoretice şi practice. Patru dintre acestea par mai importante. Mai întâi, 
pentru a învăța un mediu geografic pornind de la surse primare (cele prezente în 
mediul înconjurător) sau secundare (prin intermediul hărților, de exemplu), vederea 
este simțul cel mai eficient. Posibilitatea de a se deplasa sau de a interactiona cu 
mediul intr-un mod autonom este, deci, una dintre marile provocari cu care se 
confruntă persoanele cu deficiențe vizuale (Golledge“ 1993). Bruce et al. (Bruce™ et 
al. 1991) arată, de exemplu, că in săptămâna anterioară unei anchete realizate pe un 
eşantion de tineri orbi, 20 la sută dintre respondenţi nu îşi părăsiseră domiciliul, 34 la 
sută se deplasaseră pe un perimetru foarte restrâns şi numai 41 la sută părăsiseră 
incinta casei singuri şi pe jos. 

Clark-Carter et al. (Clark-Carter® et al. 1986) au raportat, de asemenea, că 
cel putin 30 la sută dintre persoanele cu deficiente vizuale nu fac nicio deplasare 
singure in afara casei. Atunci cand se deplasează, persoanele cu deficiențe vizuale 
folosesc în principal itinerare familiare şi cunoscute. 

Într-adevăr, explorarea poate fi o sursă a dezorientării şi a anxietatii. Cerce- 
tările în domeniul cartografiei cognitive au potenţialul de a ameliora calitatea vieţii 
persoanelor cu deficiențe vizuale furnizând indicii pentru a ameliora formările în 
ceea ce priveşte orientarea şi mobilitatea şi de a transforma, astfel, subiecții cu 
deficiențe vizuale, în persoane mai autonome. 

In al doilea rând, cunoştinţele obținute datorită cercetărilor în domeniul 
cartografiei cognitive sunt utile pentru a concepe mediile înconjurătoare (în special 
urbane) mai uşor de memorat şi mai plăcut de parcurs. Modificări ar putea fi aduse, 
“Millar, Susanna, Understanding and representing space: Theory and evidence from studies with 
blind and sighted children, Oxford University Press, USA, 1994, ; 
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în special, mediilor existente 
Ep vizuale, 


n al treilea rând, conce 
cu deficiențe vizuale a progresa 


pentru a permite un acces mai bun persoanelor cu 


perea unor dispozitive de asistare pentru persoanele 


; ile t foarte mult în ultimii ani. În afara dispozitivelor de 
ajutor pentru mobilitate care permit evitarea obstacolelor imediate, în ultimul timp 


s-au dezvoltat numeroase dispozitive de ajutor pentru orientare, care au la bază 
poziționarea geografică precisă şi ghidarea persoanelor cu deficienţe vizuale (Farcy” 
et al. 2006). Pentru ca aceste dispozitive sa fie utilizabil 


e, este esenţială integrarea 
persoanelor cu deficiente vizuale in veri 


gile de conceptie pentru a intelege practicile 
„clasice” de navigare ale acestora, dar şi nevoile lor şi modul în care ei utilizează 


aceste sisteme (Anke Brock“ 2010). Cercetările în domeniul cognitiei spatiale pot 
permite să se înțeleagă ce informaţie este necesară pentru un navigator orb şi cum 
trebuie să i se prezinte acestuia informaţia. Cercetările în domeniul cartografiei 
cognitive pot fi, de asemenea, foarte utile pentru a dezvolta metode de evaluare ale 
acestor dispozitive de asistare. 

În al patrulea rând, studierea cognitiei spatiale a persoanelor cu deficiențe 
Vizuale aduce informaţii preţioase cu privire la rolul experienței senzoriale în carto- 
grafia cognitivă în general. Acest lucru conduce la progrese teoretice care pot avea 
Tepercusiuni în alte domenii in care cognitia spaţială este importantă, cum ar fi 
robotica. 
k Lucrările descrise aici privesc numai ultimele două puncte (conceperea unor 
dispozitive de supleanta şi aspectele teoretice care privesc cognitia spațială, compa- 
rată în special cu aceea a văzătorilor) şi sunt realizate în strânsă colaborare cu Centrul 
de Educaţie Specializată pentru Persoanele cu Deficiențe Vizuale — Institutul Tineri- 
lor Orbi din Toulouse (Centre d’Education Spécialisé pour Déficients Visuels — 
Institut des Jeunes Aveugles de Toulouse). 


2.2.4 Asistarea navigarii si terminologie 


Lucrările descrise cu privire la conceperea unor sisteme de asistare a 
navigării se sprijină pe etapele navigării descrise de Downs and Stea” (1973). Atunei 
cand este necesar, se utilizează şi noţiunile de planificare, navigare fină şi globală, 
introduse de Adams” (1997) care accentuează dificultăţile generate de sarcinile de 
locomotie care nu sunt ghidate vizual. In acord cu terminologia utilizată de 
specialiştii din domeniul readaptării nevăzătorilor (deşi nu total echivalenți), se vor 
utiliza mai frecvent termenii de „mobilitate”, „orientare” şi „pregătire a itinerariului”. 
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Mobilitatea corespunde facultăţii de a se deplasa păstrând o direcţie şi evi- 
tand obstacolele. Aceste două abilități de a păstra o direcţie şi de a evita obstacolele 
sunt predate încă de la începutul cursurilor de formare în domeniul locomoţiei şi 
permit persoanelor cu deficienţe vizuale să se concentreze pe probleme de orientare. 

Orientarea corespunde facultăţii de a se situa în mediul înconjurător, precum 
şi de a-şi situa punctul de plecare, punctul de sosire şi toate punctele intermediare 
necesare pentru a ajunge la destinație. Conform modelor descrise anterior, această 
fază de orientare în navigare a persoanelor cu deficiențe vizuale se bazează foarte 
mult pe pregătirea itinerariului, prezența unor puncte de reper şi alegerea direcțiilor. 

Pregătirea unor itinerare pare a fi primordială, deoarece majoritatea persoa- 
nelor cu deficienţe vizuale resimt stres şi anxietate la ideea de a se deplasa într-un 
mediu necunoscut. Pregătirea itinerariului include etapele preliminare de dobândire a 
unor cunoştinţe spaţiale prin intermediul hărților, de exemplu, precum şi faza de 
planificare care permite alegerea itinierariului în funcţie de factorii subiectivi şi 
externi. Prezenţa unor puncte de reper nevizuale în itinerariul ales are o importanță 
capitală. Aceste puncte de reper vor servi, în acelaşi timp, ca puncte de decizie 
(pentru o schimbare de direcţie, de exemplu), dar şi ca puncte de confirmare care dau 
asigurări că s-a făcut alegerea bună. Punctele de interes (prezența unui parc, de 
exemplu) influențează în mod evident alegerea itinerariului, dar pot servi şi ca puncte 
de reper. În cele din urmă, alegerea direcțiilor este, de asemenea, o etapă deosebit de 
complicată la persoanele cu deficiențe vizuale, deoarece trebuie să se traducă într-o 
modalitate nevizuală nişte indicaţii care sunt, foarte frecvent, vizuale („a o lua pe 
strada V. Hugo” de exemplu). Această observaţie întăreşte avantajul punctelor de 
confirmare care trebuie să apară rapid după alegerile efectuate. 


2.2.5 Tehnologiile de asistare pentru persoanele cu deficiențe vizuale 


Ajutoarele tehnice pentru persoanele cu deficienţe vizuale au obiectivul de a 
compensa limitările de activitate sau restricțiile de participare legate de deficienta 
vizuală. Limitările de activitate desemnează dificultățile pe care o persoană le 
întâmpină, in executarea unor activități. Restricţiile de participare desemnează 
problemele pe care o persoană le poate întâlni în implicarea sa într-o situaţie de viață 
a prezent, există numeroase dispozitive (care nu vor fi descrise aici), legate de 
tl ilitatea informaţiei (lectură şi scriere). În domeniul spaţial, navigarea consti- 
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dispozitive specifice îndeplinirii unei sarcini, cum ar fi ajutoarele pentru navigare 
(a se vedea, de exemplu, Loomis™ et al, 1994; Ran” et al. 2004) sau ajutoarele 
pentru explorarea unor locuri geografice prin intermediul unor hărți sau modele 
(Wright et al. 2010). 


Această disociere se înscrie într-o dezbatere cu privire la substitutia senzo- 


rială, concept inventat în anii 1960 pentru a defini acţiunea de a substitui o modali- 
tate senzorială printr-o alta, cum este neuroproteza vizuală. Acestea constituie tehno- 
logii care au ca scop refacerea vederii conectând un captor artificial (pe principiul 
camerei video), la sistemul nervos. 


2.2.5.1 Sistemele de vedere artificială 


Sistemele electronice complementare, supleante, fie că sunt generice sau 


specifice, au o arhitectură asemănătoare. Intr-adevăr, ele sunt concepute după acelaşi 
principiu: un lant de achiziţie a informaţiei, un lant de transformare a informaţiei şi 
un modul de restituire a informaţiei analizate. În cazul sistemelor de vedere arti- 
ficiala, achizitia se face, in general, printr-o camera integrată, montată pe o cască sau 
pe ochelari. Transformarea informaţiei este foarte simplă deoarece se limitează, de 
exemplu, la corespondenţa, punct cu punct, a pixelilor imaginii către interfaţa de 
ieşire (cu o diminuare sistematică a numărului de puncte pentru a corespunde cu 
interfața de ieşire) sau la instalarea unui filtru spatial bazat pe contururi. Exemplele 
de sisteme de vedere artificială sunt numeroase în literatură şi au ca modalitate de 
ieşire somestezia sau auzul. Aceste sisteme se bazează pe ipoteza că este posibil să se 
redea un număr mare de informaţii spatiale (forme şi poziții) privind mediul 


înconjurător prin intermediul modalităţii de ieşire. 


3. Conceperea unor tehnologii de supleanta, metode, instrumente 


O nouă temă dezvoltată la IRIT, având ca obiect înțelegerea şi modelarea 


percepției spatiale $i cognitia în deficienţele de vedere, are scopul de a proiecta şi de 
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a evalua sistemele de asistare automată a cognifiei care să permită creşterea 
autonomiei nevăzătorilor în sarcini spaţiale. Acest proiect are un dublu obiectiv 
furnizarea de sisteme, modele şi instrumente pentru proiectarea HMI (Human 
Machine Interface) centrat pe utilizator, dar şi studiul principiilor prin care un sistem 
de vedere artificială poate fi conectat direct la cortex (printr-o interfață neurală). 

În încercarea de reconstrucţie a unei scene vizuale, se abordează pentru 
început o sub-problemă şi anume, simularea unor funcții utile în sistemul vizual 
pentru navigare: recunoaşterea şi localizarea obiectelor. Această caracteristică ne 
permite restaurarea comportamentelor video-motorii importante pentru asistența 
navigării asistate de calculator prin Internet. În conformitate cu analiza nevoilor 
persoanelor cu deficiențe de vedere, propunem dezvoltarea unor instrumente care să 
ajute la pregătirea traseului, off-line. 

Se descriu în continuare instrumentele şi metodele implementate la IRIT, mai 
multe prototipuri, inclusiv prototipul asistenţei spaţiale proiectate de echipa ELIPSE. 
În mod paradoxal, utilizarea celor mai cunoscute dispozitive de asistare 
pentru mobilitate, bastonul alb şi câinele ghid, nu este atât de curentă. În Franţa, 
acestea nu au fost adoptate decât de 2% dintre persoanele cu deficienţe vizuale, 26% 
din populația oarbă (Sander”” et al. 2005). Utilizarea limitată a câinilor ghid se poate 
explica prin costul său ridicat: aproximativ 15000€ în total, incluzând şi o perioadă 
de muncă de 8 ani. Bastonul alb nu este atât de costisitor (aproximativ 50€) şi oferă 
informaţii cu privire la mediul din imediata apropiere a utilizatorului. Pietonii cu 
deficiențe vizuale care îl utilizează sunt uşor de identificat, deci vor fi mai protejați. 
Principala limitare a bastonului alb în cadrul mobilităţii este mărimea acestuia: 
distanța de aproximativ doi paşi pe care o acoperă nu permite anticiparea drumului 
de urmat şi limitează viteza de mers. În plus, bastonul alb nu împiedică coliziunile cu 
obstacolele situate la înălțime. În sfârşit, deşi poate fi utilizat pentru a verifica 
prezenţa reperelor, acesta nu aduce niciun ajutor în orientare. Pentru a depăşi aceste 
limitări, au fost dezvoltate numeroase aparate electronice dedicate mobilității şi 
orientării, însă acestea nu sunt foarte răspândite (Dowling” ? 2003). 

Aceste dispozitive au fost concepute in mod frecvent in baza unei tehnologii, 
urmând a fi adaptate ulterior pentru a răspunde nevoilor persoanelor cu deficiențe 
vizuale. Acest demers de concepţie a dus la crearea unor dispozitive de supleanta 
care funcționează, dar care nu sunt utilizate deoarece sunt concepute prost din 
punctul de vedere al facilităţi de utilizare. Echipa ELIPSE a IRIT are o experiență 
îndelungată în ceea ce priveşte concepția participativă, mai ales în cadrul concepției 
sistemelor de supleanță, În colaborare cu Institutul Tinerilor Orbi din Toulouse, 
echipa a utilizat o metodă de concepţie modulară bazată pe agenți autonomi, 
comunicând prin schimb de mesaje pe o magistrală logică. 
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3.1 Colaborarea cu persoanele cu deficienţe vizuale și cu profesioniștii în 
recuperare 


Unul dintre defectele de care suferă, în prezent, metodele de concepție a 
sistemelor de supleanță este lipsa de implicare a utilizatorilor finali. Încă de la 
primele faze de modelizare a aplicaţiei finale, concepția trebuie gândită integrând 
etapele de evaluare şi de revenire la concepție, Pentru a optimiza acest demers 
Christophe Joufrais a creat, timp de 5 ani, legături solide cu Centrul de educaţie 
specializată pentru persoane cu deficienţe vizuale IJA — Institut des Jeunes Aveugles 
de Toulouse / Institutul Tinerilor Orbi din Toulouse“, 

Cu sprijinul consiliului de administraţie al IJA, s-a elaborat o convenţie 
pentru fondarea unui laborator de cercetare comun, care va permite persoanelor cu 
deficienţe vizuale, profesioniştilor în domeniul formării şi recuperării şi cercetătorilor 
IRIT să se reunească în jurul unor discuţii şi proiecte comune. De asemenea, pentru 
colectarea de fonduri destinate cercetării în domeniul tehnologiei de supleanță pentru 
persoanele cu deficiențe vizuale, s-a realizat un proiect de întemeiere a unei fundaţii. 

În diferitele proiecte de cercetare prezentate în continuare, echipa ELIPSE 
apelează în mod frecvent la IJA pentru a defini nevoile, dar şi în scopul de a recruta 
un grup de subiecți pentru experiențele de psihologie experimentală şi/sau pentru 
fazele de concepție”. 


3.2 Concepţia participativă cu persoanele cu deficienţe vizuale 


Concepţia participativă este un proces de concepţie a sistemelor interactive 
care implică utilizatorii în întregul proces al dezvoltării (Norman & Draper” 1986). 
Totuşi, aceasta presupune ca utilizatorii să dispună de toate capacitățile lor fizice, în 
special vizuale. În cercetările sale, echipa ELIPSE a remarcat că metodele şi 
instrumentele utilizate în mod tradiţional nu sunt adaptate pentru persoane deficiente 
vizual şi, în consecință, a făcut o serie de observaţii şi recomandări care permit 
adaptarea metodelor de concepţie participativă la utilizatorii cu deficiențe vizuale 
(Anke Brock” et al. 2010b). 


3.3 Conceptie modulară şi prototipare rapidă 


Dezvoltarea de prototipuri funcționale ale unor sisteme interactive complexe 
este o adevărată problematică în informatică, mai ales atunci când aceste dispozitive 
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se adresează unor subiecţi lipsiţi de vedere (ca urmare a absenței interfeţei grafice, 
care permite compensarea a numeroase probleme tehnice). Adesea, tehnica este o 
frână pentru concepţia participativă, cu feed-back-uri prea lente în ceea ce priveşte 
integrarea ultimelor rezultate şi a noilor idei. Majoritatea mediilor de dezvoltare sunt 
foarte limitate la platforme software sau la materiale specifice. Pentru a atenua aceste 
dificultăţi, se disting două tendințe: alegerea unui singur mediu de dezvoltare 
coerent, însă cu preţul unor potenţialităţi restrânse sau operarea pe diferite platforme, 
dar cu problemele de comunicare şi de integrare ale acestor dezvoltări în cadrul unui 
singur sistem interactiv performant. 
Echipa ELIPSE, în colaborare cu CENA (centrul de studii pentru navigare 
aeriană), a dezvoltat o metodă de prototipare rapidă bazată pe o magistrală logică 
(Buisson™ et al. 2002). Această magistrală, denumită Ivy”, funcţionează prin schimb 
de mesaje textuale de la un agent la altul. Nicio structură de date complexă nu poate 
fi trimisă. Această restricție numai la lanţurile de caractere face ca datele să fie 
compatibile sub forma unui standard disponibil pe toate platformele şi în toate 
limbajele. Agenţii trimit şi primesc mesajele pe o adresă de broadcast. Astfel, fiecare 
agent se poate abona şi poate asculta mesaje filtrate prin intermediul unui prefix 
pentru mesaje şi poate invoca o funcţie evenimentiala la fiecare receptare de mesaje. 
Datorită acestei functionari, este posibil să se suprime un modul, să fie simulat sau 
înlocuit foarte uşor. Singurul imperativ este ca modulele să fie pe aceeaşi sub-retea. 
Această metodă permite adăugarea şi/sau suprimarea agenților în dispozitive, 
fără a le denatura funcționarea globală. În toate proiectele, echipa ELIPSE dezvoltă 
module independente (de exemplu, pentru achiziţionarea unor date video sau pentru 
redarea sonoră) şi autonome, care pot fi testate şi simulate separat. Această 
funcționare facilitează evaluarea independentă a fiecărui modul şi permite evaluarea 
pe aceeaşi bază software a unor metode diferite de achiziţie, de transformare şi de 
redare, fără a schimba arhitectura sistemului. Mai mult, modulele sunt reutilizabile în 
diferite dispozitive. Această metodă permite, în special, concentrarea atenției asupra 
pee! centrate pe utilizator (Norman & Draper” 1986) suprimând unele bariere 
tehnice. 


3.4 Platforme, metode si instrumente 


La IRIT, există două platforme dedicate studiului realităţii virtuale: PREVI, 
(http://www irit.fr/-PREVI-) şi ULY SS (http://www. irit.fr/labo-usages/). Aceste două 
platfome permit utilizarea ultimelor tehnologii interactive şi imersive, precum şi a 
metodelor ȘI instrumentelor de concepere a unor sisteme interactive. S-a inițiat 
uree unui post experimental (numit Human Experimentation Lab) în care se pot 
a E Prptocoale privind studiul percepției auditive sau haptice şi studiul 

europroteze vizuale. Acest post este prevăzut cu o cască pentru 


64 
Buisson, Ma > i i 
, Marcellin, Alexandre Bustico, Stéphane Chatty, François-Régis Colin, Yannick Jestin, 


Sébastic ‘hri 
n Maury, Christophe Mertz & Philippe Truillet, vy: un bus logiciel au service du 


dev 
Scor Aa de pr andi de systèmes interactifs, 2002. 
Norman, Donald os si LGPL de câtre DTI/SDER. A se vedea http://www.tls.cena.ft 
. & Stephen W, Draper, User centered system design Hillsdale, NJ, 1986. 


54 


Tehnologii de asistare a persoanelor cu deficienţe vizuale 


realitatea virtuală dotată cu un oculometru (NVisor + SR research), ceea ce permite 
ajustarea afisajului în funcţie de poziţia ochilor, cu un sistem de captură a mișcării 
(Optitrack de NaturalPoint, 12 camere la 100 Hz) şi cu o platformă ce conţine 35 HP 
(Figura 2), care permite studierea localizării spaţiale auditive în câmpul peripersonal. 


Fig. 2. Dispozitiv experimental cu captorul de poziţie pentru cap (fixat pe o cască) şi o diodă 
pe deget care permite urmărirea mişcărilor de marcare (imagine preluată în timpul 
experimentului) 


Mediul permite, în acelaşi timp, efectuarea de cercetări în amonte în 
domeniul psihologiei experimentale (localizare auditivă 3D de exemplu), dar şi a 
unor studii în aval, cu privire la eficienţa utilizării dispozitivelor de supleanta. 


4. Localizarea rapida a obiectelor ca ipoteză de supleanta spa- 
țială la persoanele cu deficiențe vizuale 


4.1 Introducere 


Imaginaţi-vă o clipă că vă aflaţi într-o cameră întunecată necunoscută. Pro- 
nunțați cuvântul „ceaşcă” şi auziti obiectul respectiv răspunzându-vă printr-un sunet 
anume. Puteţi să vă indreptafi spre ceaşcă şi să o luaţi. Sau, pronunfati cuvinte ce 
descriu mediul şi auzifi fiecare obiect prezent în câmpul vederii (de ex. fereastra, uşa, 
scaunele etc,) emițând un sunet adecvat şi distinctiv. Acesta este principiul pe care 
echipa ELIPSE îşi propune să îl studieze şi să îl aplice supleantei spaţiale pentru 
persoanele cu deficienţe vizuale. Ipoteza avansată este că o astfel de abordare poate 
permite recuperarea unei categorii de comportamente senzorial-motorii simple şi 
funcţionale; capacitatea de a se orienta şi de a se îndrepta către o țintă, în scopul de a 
o apuca (e.g. localizarea unei cegti într-o încăpere şi apucarea acesteia). O altă 
ipoteză absolut nouă este că localizarea „precisă” a unui număr mie de obiecte ar 
permite generarea unor reprezentări mentale raro, dar funcționale în spațiul 
înconjurător (e.g. o încăpere, un loc geografic), şi, prin urmare, ameliorarea compor- 
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tamentelor senzorial-motorii de nivel mai ridicat, precum navigarea. Este posibil să 
se înțeleagă organizarea generală a unei camere dacă se cunoaşte localizarea uşii, a 
ferestrelor şi a mobilierului principal. Este posibil să se înțeleagă pe: unei 
piețe, dacă se cunoaşte poziția clădirilor sau a străzilor alăturate şi localizarea 
fântânii. 


Zone stereo / 


« Foarfece » 
« Ceainic » 


Fig. 3. Schemă care ilustrează principiul supleantei funcționale prin localizarea de obiecte, 
Principiu comun celor două dispozitive concepute 


Figura 3 prezintă o schemă care ilustrează principiul supleantei funcționale 
prin localizarea de obiecte. Subiectul poartă o pereche de camere legate la un laptop 
care conține un sistem de recunoaştere şi de localizare a obiectelor în timp real. 
Calculatorul are o intrare pentru microfon cuplată cu un sistem de recunoaştere 
vocală şi o ieşire audio stereofonică. Atunci când utilizatorul vrea să găsească un 


obiect precis, spune numele obiectului la microfon şi primeşte imediat o informaţie 
spaţială care îi permite să îl localizeze 


4.1.1 Un principiu, mai multe abordări 


a 
În cadrul proiectului care 


7 a început în 2005, s-au studiat mai multe dezvoltări 
tehnologice primordiale ale dispo 


zitivului, şi anume: vederea artificială care permite 
; apidă a unor obiecte de interes dintr-un anumit spațiu, 
A dispozitivului şi două metode de redare a informaţiei spatiale 
ȘI prin interacțiunea creier-maşină). Fig, 4, ilustrează posibi- 


i A A i n 3 ran Fi N 
sep modul de recunoaştere şi localizare pentru a-l conecta cu 
edare, 
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Analiza scenei prin 

recunoaştere şi Realitate auditivă mărită 

localizare rapide Acliuni (mișcări gi 
deplasări) ghidate auditiv 


Modelizarea unei 
neuroproteze vizual 
—— 


‘Creier-Masina 


Fig. 4. Schemă care sintetizează diferitele lucrări întreprinse cu privire la supleanta spaţială 
bazată pe localizarea şi recunoaşterea de obiecte în scenă. 


Figura 4 prezintă o schemă care sintetizează diferite lucrări întreprinse pentru 
supleanta spaţială bazată pe localizarea şi recunoaşterea de obiecte în scenă. Analiza 
scenei, realizată în timp real“, permite selectarea şi localizarea (în 3D) a obiectelor 
de interes. Se dezvoltă trei abordări complementare care permit redarea informaţiilor: 
= sus: abordare a realității mărite prin sinteză binaurală; 
= mijloc: abordare prin simularea unei neuroproteze vizuale; 
= jos: abordare reală a unei neuroproteze vizuale la animal. 


4.1.2 Analiza deplasării persoanelor cu deficienţe vizuale 


În plus fata de discuţiile cu IJA, s-a realizat o anchetă pe 54 de nevăzători cu 
vârste cuprinse între 20 şi 63 de ani, prin intermediul unui chestionar electronic acce- 
sibil pe internet, care a permis identificarea nevoilor persoanelor cu deficienţe vi- 
zuale în timpul deplasărilor lor cotidiene. | 

O singură persoană utilizează un instrument electronic de ajutor pentru navi- 
gare (Teletact), însă menționează un cost prea ridicat în comparaţie cu utilitatea 
acestuia, Bastoanele albe sunt utilizate de 76 % dintre subiecții interogati, deoarece 
permit detectarea obstacolelor apropiate de sol. În schimb, acestea sunt inoperante în 
cazul obstacolelor a căror înălțime este superioară celei a genunchilor, Principalul lor 
atu este costul, dar şi rapiditatea învăţării utilizării lor, 28% dintre subiecții interogati 
au abandonat bastonul alb în ziua în care au avut un câine ghid, datorită facultăţii lor 
de a se adapta, de a învăţa noi trasee, de a recunoaște noi puncte de interes şi toate 


Se utilizează aici o semnificaţie personală a timpului real: aceasta corespunde unor procese compa- 
tibile cu un comportament uman în curs, 
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acestea cu un efort cognitiv scazut din partea utilizatorului. Majoritatea nevăzătorilor 
interogati consideră că o persoană insofitoare ar fi ajutorul cel mai pertinent. 

Oricare ar fi tipul de asistare utilizat, 80% dintre participanți ies singuri pe 
stradă cel puţin o dată pe zi, iar 87% cel puţin o dată pe săptămână. Numai 1,5% 
dintre persoane nu utilizează niciun sistem de ajutor pentru navigare, dar nu ies 
niciodată singuri. Transportul în comun este foarte utilizat, 38% dintre ei îl utilizează 
cel putin o dată pe zi, 85% cel puţin o dată pe săptămână şi numai 1,5% nu îl 
utilizează niciodată. Trebuie notat că aceştia din urmă sunt şi cei care nu utilizează 
niciun sistem de ajutor şi nu ies niciodată singuri. Transportul în comun, deşi nu este 
destul de accesibil, pare a fi primordial pentru autonomie. 

În spatele acestor date descriptive cu privire la obiceiurile nevăzătorilor, 
acest studiu a permis punerea în valoare a nevoilor care sunt rar satisfăcute de 
instrumentele de supleanță existente. Analiza rezultatelor chestionarului pune în evi- 
dent trei categorii de nevoi exprimate de nevăzători: navigarea în medii necu- 
noscute, localizarea obstacolelor şi categorizarea unor obiecte asemănătoare. 


4.1.2.1 Navigarea în medii necunoscute 


Majoritatea persoanelor care utilizează un câine pentru orbi în consideră mult 
mai util decât bastonul alb, deoarece este mult mai uşor de utilizat. Spre deosebire de 
baston, câinii ghid pot găsi calea cea mai scurtă pentru a ajunge la o destinație, pot să 
o ia pe trecerile pentru pietoni, pe trotuare şi să adapteze un traseu în funcție de 
obstacolele apărute la distanță sau pe înălțime. În schimb, ei nu sunt acceptaţi de 
toate persoanele şi, în plus, nu sunt acceptaţi în toate locurile publice (spitale, maga- 
zine...). Prin urmare, câinele este foarte util pentru mobilitate (păstrarea direcţiei şi 
evitarea obstacolelor) şi orientare într-un spațiu imediat (găsirea celei mai apropiate 
treceri de pietoni). Din păcate, câinele nu poate deloc să genereze un itinerar către o 
destinaţie dorită. Stăpânul trebuie să ştie, în orice moment, unde se află şi în ce 
direcţie vrea să meargă. Aceasta înseamnă să fie corect orientat, să selectioneze 
itinerariul dorit şi să recunoască reperele de navigare în timpul deplasării. 


4.1.2.2 Localizarea obstacolelor şi a obiectelor 


O problemă importantă este detectarea obstacolelor, în special a celor care sè 
află la înălțimea capului (extinctoare, bene de camion ete.), deoarece acestea nu sunt 
detectate de baston gi sunt uneori ignorate de câinii ghid. Formele obstacolelor care 
sunt cel mai dificil de evitat sunt lungi şi fine, verticale sau orizontale. Participanţii 
Apa că obstacolele cele mai periculoase în navigare sunt rupturile brutale de 

» pe de o parte, și mobilierul urban mobil şi vehiculele, pe de altă parte. 


4.1.2.3 Categorizarea obiectelor asemănătoare 


„A recuno 
obiectele sunt a 
diferențiat o cut 


aşte un obiect prin forma sa poate să nu fie suficient atunci când 
cope din punct de vedere structural. De exemplu, este util de 
le de mazăre de una de ananas sau o factură de chirie de © chitanță 
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bancară. De asemenea, este foarte util de ştiut cărui magazin îi aparține uşa detectată. 


Aceste probleme au revenit în mod recurent în 


numele străzii, valoarea unei bancnote, numărul autobuzului, numele unui magazin 


5 


etc.). În lipsa unei informații semantice complete, culoarea (semafor, culoarea 


hainelor etc.) şi luminozitatea (vremea de afară etc.) sunt informaţii care se pot 
dovedi indispensabile. 


4.1.2.4 Concluzii privind analiza 


Analiza răspunsurilor persoanelor cu deficienţe vizuale scoate la iveală două 


funcții vizuale primordiale: recunoaşterea şi localizarea obiectelor, Această dublă 
facultate permite deplasarea localizând obstacolele, orientarea culegând informaţii cu 
privire la poziţia reperelor şi configuraţia spaţiilor, şi luarea de decizii în situații în 
care absența informațiilor vizuale este penalizantă (traversarea dacă semaforul este 
verde, alegerea cutiei de mazăre etc.). 


Echipa ECLIPSE crede că este posibil să se utilizeze recunoaşterea. şi 


localizarea unor ţinte vizuale în mediul înconjurător prin vedere artificială pentru a 
ajuta persoanele nevăzătoare să navigheze. De exemplu, s-ar putea implementa o 
funcție de recunoaştere a unor repere vizuale (metrou, uşă, trecere de pietoni, logo 
ete). Această informatie ar permite pastrarea unei directii, îndreptarea către o 
destinație şi localizarea punctelor de reper sau a punctelor de interes, cum ar fi 
clădirile importante. Faptul de a recupera această funcție a sistemului vizual ar 
permite să se răspundă, în acelaşi timp, unei alte nevoi, cea a recunoaşterii obiectelor 
cu forme asemănătoare, dar pentru care numai motivul vizual este diferit. 


4.2 Un modul de recunoaștere şi de localizare rapidă a obiectelor 


Astăzi, multi algoritmi care privesc vederea ajung la rezultate de segmentare 


Şi de interpretare a scenei foarte evoluate. Din contră, foarte puţini dintre aceştia sunt 
destul de rapizi pentru a fi compatibili cu un comportament în curs, de exemplu 
pentru a asista o persoană cu deficienţe vizuale într-o sarcină de navigare sau de 
apucare a unor obiecte. În colaborare cu Simon J, Thorpe, s-a arătat că este posibil să 
se utilizeze un sistem de recunoaştere a obiectelor (SpikeNet) pentru a localiza cu 
precizie obiectele în spaţiu, Acest sistem, ca urmare a timpului de calcul foarte scurt 
(câteva zeci de ms) şi a rezistenței sale, este utilizabil, în acelaşi timp, pentru 
navigare si pentru apucarea obiectelor (a se vedea Florian Dramas“? et al. 2007; 
Florian Dramas” et al. 201 0; Florian Dramas’ 2010), 
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În strânsă colaborare cu CerCo (echipa lui Simon J. Thorpe), s-au dezvoltat 
mai multe scenarii predefinite de supleanji pentru nevăzători pentru care se 
optimizează SpikeNet şi se compară cu alte softuri de localizare a obiectelor, 

Se încearcă dezvoltarea unui algoritm care să poată fi generalizabil (nu 
numai într-un mediu cunoscut), care să poată să urmărească obiectele și să reziste la 
rotații importante, O altă problematică importantă la care se lucrează în prezent este 
crearea de modele, care, în prezent, este supervizată şi trebuie să treacă la un mod 
semi-supervizat, 


4.3 Asistarea comportamentelor ghidate vizual si a cognifiei 
spaţiale 


4.3.1 Localizarea şi apucarea unor obiecte, ghidate prin sinteză 
binaurală 


Localizarea auditivă umană este bazată pe indicii binaurale (diferențe 
interaurale de timp şi de intensitate) şi pe indicii spectrale (monaurale) generate de 
particularitatile fizice ale observatorului, în special forma capului şi a pavilioanelor 
(Middlebrooks & Green”! 1991). Toate aceste indicii spaţiale auditive pot fi incor- 
porate în funcții de transfer care depind de cap (Head-Related Transfer Function, 
HRTF), care sunt măsurate în urechea subiectului ca răspuns la sursele sonore din 
spaţiu (Kulkarni & Colburn” 1998). În consecință, ascultarea unor stimuli sonori 
corectaţi cu o HRTF permite menținerea informaţiei spatiale proprii subiectului şi 
reproducerea unei percepții tridimensionale. 

Experiențele făcute pe transformările auditivo-motrice arată că mişcările 
îndreptate către o ţintă auditivă sunt posibile şi precise atât la subiecții normali, cât şi 
la nevăzători (Zwiers” et al. 2001a; Zwiers” et al. 2001b; Fujiki’> et al. 2002). Unul 
dintre modulele noastre de restituire are la bază sinteza binaurală (sinteză a sunetelor 
virtuale în 3D) ca mijloc de localizare spaţială a obiectelor căutate, cu ipoteza că este 
posibilă localizarea şi apucarea unui obiect mărit printr-un sunet 3D virtual. 

Pentru a modeliza şi a reproduce prin sinteză binaurală localizarea spațială 
auditivă, împreună cu Brian F.G. Katz (LIMSI, Orsay) s-a încercat: 1/ înțelegerea 
capacităţilor perceptive comparate ale văzătorilor şi ale nevăzătorilor şi 2/ conce- 


perea unei metode de interacțiune sonoră 3D care permite localizarea obiectelor 
spaţiale, 
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S-a dezvoltat un post experimental (platformă cu 35 de difuzoare așezate în 
are de cere în spaţiul peripersonal) care permite să se prezinte sunete reale în spațiul 
din jurul subiectului, precum gi să se urmărească şi să se analizeze traiectoria mâinii. 
Într-o primă experiență (a se vedea Florian Dramas” et al. 2008), s-au înregistrat 
mişcările de punctare a 19 subiecţi văzători şi nevăzători către diferite tipuri de 
sunete reale (durată şi repetiţii variabile). 

Figura 6 prezintă utilizarea instrumentului COFT. Cercurile verzi corespund 
poziţiei fiecărui difuzor, în reperul imagine. Primul cerc roşu corespunde poziţiei 
estimate în timp real a indexului utilizatorului. Al doilea cerc roşu corespunde difu- 
zorului de la care provine stimulul. Înregistrările mişcărilor de punctare a mâinii 
câtre sursa sonoră au fost realizate la IRIT în 2D prin captură video. Acest post 
experimental este compatibil cu sistemul de captură a mişcării 3D NaturalPoint. 

Erorile de azimut arată că precizia marcată este mai bună în fata subiectului 
şi scade în lateral, pentru a deveni rea în spatele subiectului. Mai precis, se arată că 
precizia localizării în fata subiectului este compatibilă cu un gest de atingere şi de 
apucare (0 eroare de 6° reprezintă o distanță de 6 cm până la 57 cm). Erorile în ceea 
ce priveşte distanța sunt putin mai importante în față (de ordinul a 12 cm) decât în 
lateral (de ordinul a 10 cm). Pe ansamblu, aceste rezultate arată că dacă poziţia unui 
obiect ar fi desemnată printr-un sunet real, ar fi posibil ca mâna să se apropie 
suficient de obiect pentru a-l apuca. 


Fig, 5. Dispozitiv experimental cu captor de poziție pentru cap (fixat pe o 
cască) şi dioda pe deget care permite urmărirea mişcărilor de marcare, 


Într-o a doua experienţă, s-a cerul subiecţilor să efectueze mişcări de marcare 
către un zgomot alb cu durate şi repetări diferite, Eroarea de azimut în funcție de 
k f=) 


experimente arată că precizia de localizare angulară este dependentă de durata 


stimulului şi de numărul de repetări ale sunetului, 
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Fig. 6. Utilizarea instrumentului COFT. 


Se arată, în special, că precizia nu se ameliorează la nesfârşit cu numărul de 
sunete şi cu durata sunetelor şi că precizia este deja suficientă şi pare să atingă un 
anumit grad pentru două sunete de 25 ms întrerupte de 30 ms de pauză. 

Paralel cu aceste lucrări privind localizarea unor sunete reale, institutul 
LIMSI a dezvoltat un motor de sinteză (LSE, LIMSI Spatialization Engine) care va 
permite compararea acțiunilor ghidate de sunete reale şi virtuale şi lucrează asupra 
designului sonor. 

Acest motor va permite compararea răspunsurilor subiecţilor nevăzători cu 
cele ale subiecților văzători lipsiţi de vedere şi, prin urmare, cunoaşterea capacităților 
de percepţie, de reprezentare spațială şi de acţiune a subiecţilor nevăzători fata de 
cele ale subiecţilor văzători, indiferent dacă ținta auditivă este reală (difuzoare pla- 
sate în apropierea obiectului) sau virtuală (realitate mărită prin sinteză binaurală). 

El permite, de asemenea, conceperea unei interfețe sonore 3D care poate sa 
ghideze mana sau corpul către o țintă auditivă şi să evalueze posibilităţile de transfer 
ale unor atribute suplimentare privind obiectele (orientarea, de exemplu). Echipa lui 
Brian F.G. Katz (a se vedea Brian F.G. Katz & Picinali’’ 2011) a arătat mai ales că 
persoanele cu deficienţe vizuale sunt capabile să înțeleagă un mediu sonor constituit 
din mai multe surse virtuale localizate (Afonso'S et al. 2005). 


4.3.2 Asistarea navigării bazate pe localizarea țintelor 


A ie ocalizarea unor ţinte în mediul înconjurător apropiat permite utilizatorului 
e ze ue e acţiuni ghidate vizual, în special mişcarea de orientare către o 
prinsă în câmpul vederii sau mişcarea de apucare a unui obiect prezent în 
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câmpul peripersonal. Totusi, această asistare nu este suficientă pentru a permite unor 
persoane cu deficiențe vizuale să navigheze în spaţii largi. Ajutoarele electronice 
pentru orientare (EOA) furnizează utilizatorilor informaţii cu privire la poziţia lor şi 
la direcţiile pe care trebuie să le urmeze. Un EOA este compus din trei elemente 
indispensabile: 1/ un modul de poziţionare bazat pe semnalele satelitare; 2/ un sistem 
informațional geografic (SIG) cu o bază de date spaţiale, un soft pentru selectarea de 
itinerare şi urmărirea utilizatorilor; şi 3/ o interfață utilizator care are la bază o 
interacțiune nevizuală (de exemplu, vocală sau tactilă). 
Până în prezent, aceste EOA sunt bazate, în principal, pe GPS şi pe serviciile 
bazate pe localizare (LBS). Anumite aparate comerciale sunt disponibile 
(BrailleNote, Angeo, Trekker), dar, în majoritatea cazurilor, utilizarea lor a fost 
limitată de prețul relativ ridicat (aproximativ 2000 $) si de o proastă precizare a 
poziției (uneori mai mare de 10 m, în special în zonele urbane). Şedinţele de analiză 
cu utilizatorii şi educatorii în domeniul orientării şi mobilității (O&M) au permis 
| descoperirea unei alte limitări importante. Se pare că aceste sisteme au la bază hărți 
comerciale concepute pentru navigarea vehiculelor. Poziționarea şi ghidarea propuse 
în sistemele comerciale se sprijină deci pe o rețea de străzi şi nu pe o rețea de dru- 
muri pentru pietoni. Evident, toate reperele necesare pentru navigarea persoanelor cu 
deficiențe vizuale (puncte de reper, puncte de confirmare şi puncte de interes) sunt 
absente din baza de date. Ceea ce se propune aici este că această abordare de locali- 
zare a țintelor poate permite ameliorarea poziţiei şi, prin urmare, ajutarea persoanelor 
cu deficienţe vizuale să navigheze, dar trebuie totuşi să se sprijine pe un SIG adaptat. 

Dispozitivul de ajutor pentru navigare conceput este bazat pe prototipul de 
ajutor pentru localizarea țintelor, care permite evaluarea unei asistări pentru navigare 
adaptată în special persoanelor cu deficienţe vizuale. Până în prezent, s-a lucrat pe 
două verigi majore ale sistemelor actuale: sistemul informaţional geografic (SIG) şi 
poziţionare. Dispozitivul complet este în curs de evaluare”. 


4.3.2.1 Un sistem informațional geografic adaptat pietonilor cu 
deficiențe vizuale 


SIG poate fi definit ca un instrument de captură, manipulare, afişaj, intero- 
~ gare şi analiză a datelor spatiale (a se vedea Burrough® 1994). SIG cuprind o bază de 
date digitală si softuri concepute pentru a selectiona itinerare, pentru a urmări traseul 
călătorului şi a informa utilizatorul cu privire la caracteristicile locale. 

S-a făcut o clasificare a obiectelor care trebuie să fie integrate în baza de date 
a SIG. S-au definit patru clase principale incluzând Punctele de Interes (POI), 
indiciile și punctele de reper (LM), zonele pietonale (sidewalks) şi țintele vizuale 
(VP), POI reprezintă locuri sau obiecte care sunt destinaţii potențiale, Acestea sunt 
utile si pentru a permite pietonului să înțeleagă mai bine mediul în care se deplasează 


| 7 Aceste lucrări fac parte din proiectul NAVIG, aprobat de polul AESE şi cofinanțat de ANR 
| (programul TecSan 2008) gi Regiunea Midi-Pyrénées (programul APRRTT 2008). A se vedea 


http://navig. irit.fir/ 
8° Burrough, Peter A., Principles of geographical information systems for land resources assessment, 


| Clarendon Press, 1994, 


CHRISTOPHE JOUFFRAIS 


(de exemplu clădirile publice, magazinele, serviciile etc.). Un indiciu, după cum arată 
şi numele său, desemnează un loc care îi permite persoanei cu deficienţe vizuale să 
facă inferente cu privire la propria sa poziție. Acesta este, în esență, nevizual. Un 
punct de reper corespunde unei acumulări de indicii. Pentru a concepe un SIG 
adaptat navigării pietonilor, este important să se includă toate drumurile pedestre 
posibile, ca de exemplu trotuarele şi trecerile pentru pietoni. În sfârşit, punctele 
vizuale (VP) desemnează obiecte geolocalizate care pot fi detectate prin modulul de 
recunoaştere şi de localizare a obiectelor. Acestea au două funcții: localizarea unor 
obiecte specifice din câmpul vizual (de exemplu, o cutie poştală la care utilizatorul 
vrea să ajungă) şi ajutorul pentru poziţionare datorită estimării distanţei şi direcţiei 
între obiectul recunoscut şi utilizator. 


Li 


N ungum 


i 


Wu 


trotuare 


imu. treceri pietonale @ POI puncte de interes 


~ drumuri E LM repere marcaje 


VP repere vizuale 
Fig. 7. Ilustrarea a patru itinerare posibile între un punct de plecare şi o destinaţie. 
(imagine preluată din lucrarea Slim Kammoun81 et al. 2010) 


Figura 7 ilustrează patru itinerare posibile între un punct de plecare şi 0 
destinaţie. Pentru fiecare itinerar se calculează un scor. Calea pietonală care conţine 
POI, LM şi VP şi care are cel mai bun scor este cea aleasă. 

S-a realizat un SIG al campusului Universităţii din Toulouse, extras din baza 
de date OpenStreetMap, la care s-au adăugat clasele de obiecte KOE precum şi 
un algoritm de selecție a itinerarului care include nevoile şi preferințele pietonilor cu 
deficiențe vizuale. Figura 7 arată un exemplu de alegere a unui itinerar problematic 
Pentru a ajunge la aceeaşi destinație, pietonii pot alege unul dintre cele se zece 
reprezentate prin culori. S-a arătat că traseul optim poate fi selectat rezolvând 


8) A À 
Kammoun, Slim, Dramas Florian, Bernard Oriola & Christophe Jouffrais, Route selection algorithm 


Jor Blind pedestrian, Paper presented to th i 
ee A Korea, 2010, e International Conference on Control, Automation and 
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problema minimizarii prin algoritmul lui Dijkstra (Dijkstra? 1959), luând în consi- 
derare clasele de obiecte definite (Slim Kammoun” et al, 2010). Pentru fiecare 
secțiune, beneficiile şi costurile au fost alese pe baza nevoilor şi a comportamentului 
persoanelor cu deficiențe vizuale în timpul realizării anumitor sarcini de navigare. 
Această metodă selectează, în final, itinerariile care corespund cel mai bine navigării 
persoanelor cu deficienţe vizuale. 

Primul tip de particularitate corespunde zonelor pietonale adaptate (de 
exemplu, un trotuar larg care permite deplasarea cu un baston sau un câine). Al 
doilea tip de particularitate constă în a găsi repere nevizuale (LM) care îi ajută pe 
utilizatori să îşi confirme propria poziţie. Această alegere a itinerariului ar trebui să 
fie însoțită de o ghidare adaptată care permite semnalarea LM şi a POI întâlnite pe 
parcursul traseului. O astfel de ghidare ar avea două consecințe potenţiale impor- 
tante: ar minimiza stresul generat de deplasări şi ar permite dobândirea, în plus fata 
de competențele procedurale egocentrice, a unor cunoştinţe spatiale alocentrice 
privind configurația mediului înconjurător. Evident, o ghidare precisă are la bază o 
poziționare precisă. 
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Fig. 8. Ilustrarea unui itinerar selectat care include diferite clase de obiecte. „Landmarks"- 
urile îi permit utilizatorului să îşi confirme poziţia în itinerar. VP pentru localizarea obiectelor 
de interes în câmpul visual (imagine preluată din Slim Kammoun et al, 2010). 


Figura 8 ilustrează un itinerar selectat care include diferite clase de obiecte. 
„Landmarks”-urile îi permit utilizatorului să îşi confirme poziţia în itinerar. VP sunt 
utile pentru a localiza obiecte de interes în câmpul vizual, Aceste puncte şi POI 
permit dobândirea unor cunoştinţe alocentrice cu privire la mediul parcurs. 


%2 Dijkstra, Edsger W., A note on two problems in connexion with graphs, Numerische mathematik 
1.269-71, 1959, eer ae 
$ X ? i e 7 rinla & Chris a > eploectir s/eorith: 
83 Kammoun, Slim, Dramas Florian, Bernard Oriola & C hristophe Jouitrais, Route se ection eile 
for Blind pedestrian, Paper presented to the International Conference on Control, Automation and 
Systems, Gyeonggi-do, South Korea, 2010, 
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4.3.2.2 Fuziunea datelor cu privire la poziționare 


ii ste rareori mai 
Precizia poziționării în numeroase medii, cum Bă De hres utilizabile 
bună de 10-20 de metri. În aceste condiţii, EOA nu sun Ce est etate 
deoarece conduc la situaţii periculoase (de exemplu, Tk SNA meish 
protejate) sau la erori prejudiciabile (de exemplu, a a so e oee & 
scopul ameliorării poziționării, s-au făcut a pr sh Pi elimini 
cercetare (Helal™ et al. 2001; Petrie" et al, 1996; Loomis i aerate: 
E ea a | are epee DGPS ie i bază utilizarea unei 
i în condiţii ideale. Cu toat ; í ză 
"tă dekani de SERA la sol. Această rețea este relativ ert : r = 
foarte extinsă. În plus, greutatea şi mărimea receptorului (cel putin ap 2 es 
adecvate pentru mobilitatea pietonilor. Una dintre soluţii constă în utili 
indicii dinamice în ceea ce priveşte deplasarea utilizatorului. 


Fig, 9, Principiul de funcționare al modului „ poziționare utilizator” 
(figură preluată cu acordul autorului din lucrarea Brilhault et al 2011) 


S-a propus ameliorarea poziționării datorită detectării unor indicii vizuale 
statice prin intermediul modulului de vedere integrat (Adrien Brilhault” et al. 2011). 


Helal, Abdelsalam, Steven Edwin Moore & Balaji Ramachandran, Drishti: An integrated navigation 
system Jor visually impaired and disabled, Paper presented at the ISWC'OL, Zurich, Switzerland, 
2001, 

Petrie, Helen, Valerie Johnson, Thomas Strothotte, Andreas Raab, Steni Fritz 


MoBIC; Designing a travel aid for blind and elderly people, Journal of Navigation 49.45-52, 1996. 
Loomis, Jack M., Reginald G Golledge, 


Roberta L, Klatzky, Jon M. Speigle & Jerome Tietz, 
Personal guidance system for the visually impaired, Marina Del Rey, California, United States, 
1994, 
Brilhault, Adrien, Slim Kammoun, Olivier Gutierrez, Philippe 
Fusion of Artificial Vision and GPS to Improve Blind Pedestrian P 
4th IFIP International Conference on New Technologies, Mobility 


& Rainer Michel, 
86 


87 TON a - 

lruillet & Jouffrais Christophe, 
ositioning, Paper presented at the 
and Security, Paris, France, 2011. 


66 


| 


Tehnologii de asistare a persoanelor cu deficienţe vizuale 


În această funcție, numită „poziţionare utilizator”, vederea integrată este utilizată 
pentru a detecta ţinte vizuale care nu sunt semnalate utilizatorului, ci sunt utilizate 
doar ca puncte de ancorare pentru a preciza poziţionarea, În acest caz, nu utilizatorul 
este cel care determina ce ţinte trebuie detectate. Procesul este automat şi are la bază 
localizarea aproximativă a utilizatorului estimată de GPS, Această selectare dinamică 
şi contextuală permite controlarea numărului total de modele active, ceea ce este 
compatibil cu o funcţionare în timp real. Într-adevăr, algoritmul vederii nu caută 
decât țintele prezente în cartierul în care se situează utilizatorul (a se vedea F ig. 9). 
S-a verificat experimental că performanțele sistemului sunt compatibile cu utilizarea 
în timp real. Pe prototipul utilizat (laptop cu processor i7 Intel), s-a putut menţine o 
cadență de recunoaştere la 15Hz utilizând imagini de 320x240 pixeli şi s-au încărcat 
aproximativ 1000 de modele diferite cu o mărime de 180 pixeli. Estimarea poziţiei 
utilizatorului datorită detectării unor ținte vizuale situate între 2 şi 10 metri distanță 
este mai mică de 40 cm. Actualmente, se lucrează la evaluarea dispozitivului complet 
(GPS/vedere integrată/captoare inertiale) pe un parcurs de aproximativ 500m care 
posedă 9 ținte geolocalizate (Jiri Borovec*® 2011). Rezultatele preliminare indică 
faptul că această metodă permite suprimarea erorilor comise de GPS (Fig. 10). 


7 J , 2 TI . afi s, +12. Tit} ) y “PE 
Pig, 10. Fuziunea de date heterogene pentru ameliorarea poziționării 


Figura 10 prezintă o fuziune de date heterogene, permițând ameliorarea pozi- 
ționării, Acest desen reprezintă o hartă a campusului universităţii cu clădiri (culoarea 


iti is F ired pedestrians. 
oa a : 2 204.9 or better positioning of visually impaired pec i 
Borovec, Jiri, Fusion of heterogeneous data for be j: 


Master degree: Université de Toulouse, 2011, 
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eri) şi un itinerar (puncte violet). Linia galbenă corespunde poziționării GPS a unui 
utilizator pe traseu. Linia albastră corespunde poziționării bazate pe fuziunea datelor 
GPS cu date de la centrala inertiala şi cu detectări ale unor ţinte vizuale geolocalizate 
(stele verzi). 


4.3.3 Localizarea şi apucarea unor obiecte, ghidate de o interacțiune 
creier-maşină 


Este posibil să se conecteze o cameră la creier prin intermediul unei interfețe 
neurale. Această interfață este constituită dintr-o matrice care conţine maxim o sută 
de electrozi de stimulare. Ca urmare a acestui număr limitat de electrozi, abordarea 
clasică de tipul „scoreboard” (un pixel corespunde unui electrod de stimulare) nu este 
funcțională în prezent. 

Pentru validarea abordării de localizare a obiectelor în cadrul unei neuro- 
proteze vizuale funcţionale, se lucrează la stimularea unei neuroproteze vizuale într-o 
cască de realitate virtuală. Această abordare va permite demonstrarea conceptului 
neuroprotezei funcționale prin localizare şi testarea a două ipoteze care privesc recu- 
perarea unor comportamente ghidate vizual şi crearea unei hărți cognitive pe baza 
localizării de obiecte. 

Primele etape ale proiectului de simulare au constat în dezvoltarea unui post 
experimental care permite plasarea unui subiect într-o situaţie echivalentă celei a 
unui nevăzător implantat cu o neuroproteză vizuală. 
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Fig. 11. Post experimental de stimularea neuroprotezei vizuale: 

cască, 
La stânga, subiectul echipat cu cască şi cameră stereoscopică: sarcina sa este identificarea, 
apucarea diferitelor obiecte de pe o masă. 

La dreapta, subiectul este implicat într-o sarcină de navigare într-un spațiu 3D virtual: 

sarcina sa este de a atinge o ţintă într-un labirint virtual. 


subiectul percepe fosfene în 


Fig, 11 reprezintă un subiect care poartă o cască de realitate virtuală. Casca 
are o funcție dublă; 1/ să priveze subiectul de vederea scenei vizuale, şi 2/ să îi 
transmită informaţii spaţiale numai sub forma unor fosfene. Figura prezintă un post 
experimental de stimulare a unei neuroproteze vizuale. La stânga, subiectul este 
echipat cu casca şi cu o cameră stereoscopica. Sarcina sa este de a identifica, apoi de 
a apuca diferite obiecte de pe o masă. La dreapta, subiectul este implicat într-o sar- 
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1. În ambele cazuri, subiectul nu percepe decât fosfene în cască. 


Categorie 


sreeenosessansesosenesenssesstunasnscnnseoescesrervesssinacavetenssvarecssenevsinanaaeced 


Fig. 12. Arhitectura schematică a dispozitivului experimental. 


S-a dezvoltat o arhitectură care permite modificarea modelelor de fosfene 
afişate în cască: acestea depind de locul de stimulare, de numărul şi de poziția 
electrozilor, de frecvenţa de stimulare şi de intercomunicările dintre electrozi (a se 
vedea Fig. 12). Toţi aceşti parametri se bazează pe analiza literaturii cu privire la 
stimularea electrică a cortexului vizual la primate. 

Figura 12 prezintă arhitectura schematică a dispozitivului experimental. Ima- 
ginile provenite de la camere sunt modificate de un soft de recunoaştere a obiectelor. 
Notatia Id corespunde identității obiectului a cărui poziţie in 2D, apoi in 3D este 
comunicată modulului „strategii/categorii” care va transforma această informație în 
fosfene. Acest modul permite, în special, modificarea modelului de matrice a 
electrodului utilizat (mărime şi configuraţie), precum şi poziţia sa în sistemul vizual. 
Modelele de fosfene evocate depind, în mod evident, de tipul şi de poziţia matricei. 

Doisprezece subiecţi (6 bărbaţi şi 6 femei, cu vârsta medie de 24 de ani) au 
participat la un experiment de recunoaştere şi de localizare a unor obiecte 
(Guivarch? 2010), Sarcina consta în apucarea unui obiect plasat pe o masă printre 
alte obiecte prin intermediul unei vederi protetice prin localizare simulată (a se vedea 
Fig. 11, stânga). Subiectii trebuiau să realizeze această sarcină utilizând matrice de 
mărimi diferite (9 sau 90) gi localizări de implantare a matricelor diferite (centrală 


sau excentrată), 


% Guivarch, Valérian, Modélisation d'une neuroprothese de reconnaissance et de localisation d'objet 
dans l’espace, Master IT-ICSC: University of Toulouse 3, 2010. 
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Rezultatele arată că rata de succes (82% în medie) şi duratele până la apucare 
(18 s) sunt excelente oricare ar fi obiectul căutat (deşi unele sunt mai bine detectate 
de sistem). Observatia cea mai surprinzătoare este că performanţele nu depind deloc 
de cantitatea şi de poziţia fosfenelor. 


4.4 Un dispozitiv de recunoaştere a unor obiecte similare 


Navigarea este o nevoie primordială pentru autonomia nevăzătorilor, totuşi 
este evident că recunoaşterea unor obiecte pentru aflarea unor informaţii reprezintă, 
de asemenea, o miză importantă. Cu toate acestea, nu există, în prezent, niciun dispo- 
zitiv de recunoaştere a obiectelor, mai ales din cauza algoritmilor de segmentare care 
rămân prea lenți. 

Pe baza prototipului prezentat, s-a conceput şi evaluat eficienţa utilizării unui 
dispozitiv de recunoaştere a unor obiecte similare, în acest caz bancnote (Remi 
Parlouar” et al. 2009). Într-adevăr, majoritatea nevăzătorilor îşi sortează bancnotele 
acasă, cu ajutorul unei terțe persoane, pentru a putea să le utilizeze mai târziu. În 
acest experiment, nevăzătorii trebuiau să clasifice mai multe bancnote de valori 
diferite cu ajutorul prototipului dispozitivului compus dintr-un UMPC (Ultra Mobile 
Personal Computer) şi dintr-o cameră, utilizabilă în situație de mobilitate. După ce 
s-au definit anumite zone de interes la bancnote (prin învățare supervizată), s-au creat 
modele care permit recunoaşterea bancnotelor în toate orientările. În final, experi- 
mentul consta în clasificarea bancnotelor în funcţie de valoarea acestora. 

În momentul interviului final, toți utilizatorii, cu excepția unuia, au găsit 
dispozitivul foarte util şi utilizabil. Ei propun dezvoltarea acestui tip de aplicaţie pe 
telefonul mobil şi extinderea sa la alte tipuri de obiecte cum ar fi CD-urile, amba- 
lajele alimentare etc. Evident, o astfel de aplicaţie de recunoaştere a unor obiecte 
poate fi integrată cu uşurinţă într-un dispozitiv de asistare spaţială. Această conver- 


genta de întrebuințări în cadrul aceluiaşi dispozitiv este un argument suplimentar 
pentru abordarea supleantei. 
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Fig, 13, Bancnotele de 5, 10, 20 şi 50 de euro. 
Cu roşu, zonele caracteristice învățate şi recunoscute ale bancnotelor 


90 ras bes i 
Parlouar, Rémi, Florian Dramas, Mare M. Macé & Christophe Jouffrais, Assistive device for the 


blind based on object recognition: an application to identify currency bills, Paper presented to the 
ASSETS'09, Pittsburgh, USA, 2009, 
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4.5 Concluzii privind supleanta spaţială 


În această secțiune, s-au descris lucrările întreprinse privind supleanta spaţială in 
situ. Toate aceste lucrări au la bază analiza nevoilor şi a comportamentelor persoanelor cu 
deficiențe vizuale si sunt fundamentate pe ipoteza că recunoașterea şi localizarea unor 
indicii vizuale permite restabilirea, pe de o parte, a comportamentelor vizual-motorii în 
buclă închisă (localizarea unui obiect pentru a-l apuca) şi, pe de altă parte, generarea unor 
hărți cognitive suficiente pentru a permite comportamente de cel mai înalt nivel 
(înțelegerea topografiei unui loc şi, în consecință, ameliorarea capacităților de navigare). 
Până în prezent, s-a pus accentul pe analiza comportamentelor şi a nevoilor şi pe 
dezvoltarea unor metode şi prototipuri. În prezent, se fac numeroase evaluări cu privire la 
eficiența utilizării dispozitivelor şi la reprezentările mentale spaţiale care rezultă. Acest 
prototip a permis să se răspundă, destul de uşor dintr-un punct de vedere tehnic şi cu o 
foarte bună utilizabilitate, unei nevoi suplimentare privind identificarea unor obiecte 
similare. Cercetările sunt completate de lucrări care răspund nevoilor persoanelor cu 
deficiențe vizuale de a dobândi cunoştinţe spaţiale despre exterior. Una dintre sarcinile 


clar identificate corespunde în special pregătirii itinerarului înaintea unei deplasări. 


5. Hărțile interactive multimodale pentru achiziţionarea de 
cunoştinţe spațiale 


5.1 Introducere 


Percepția prin simțul tactil este un mijloac prin care persoanele cu deficienţe 
vizuale pot achiziționa informații şi, în special, informații spaţiale. Datorită comple- 
mentaritatii unei interacțiuni modale (audio-tactile) pentru persoanele cu deficienţe 
vizuale, s-a realizat o colaborare cu Delphine Picard, profesor de psihologie la 
Universitatea le Mirail din Toulouse, în cadrul unui proiect privind percepția 
imaginilor prin simțul tactil la persoanele cu deficienţe vizuale. 

Omul utilizează, probabil, de mai multe milenii, hărți şi descrieri de itinerare 
pentru a naviga. În prezent, aceste resurse sunt puse la dispoziția indivizilor în formă 
digitală, ceea ce le-a făcut foarte populare, mai ales după inventarea SmartPhone- 
urilor și a aplicaţiilor (Google Maps, Mappy etc.) care oferă funcții noi pentru 
asistarea navigării. În esenţă, hărţile vizuale sunt inutilizabile pentru persoanele cu 
deficiențe vizuale. Totuşi, ele sunt indispensabile în cadrul pregătirii itinerariilor, a 
fortiori pentru deplasarea unei persoane cu deficiențe vizuale. Într-adevăr, este 
deosebit de important pentru persoanele cu deficiențe vizuale să poată pregăti un 
traseu nou cu informaţii despre forma generală a acestui traseu, precum şi despre 
punctele de reper de pe parcursul său, Această pregătire permite, în special, dimi- 
nuarea temerilor și a anxietăţii datorate imersiunii într-un mediu necunoscut. 

Simţul nostru tactil permite recuperarea informaţiilor spaţiale plecând de la o 
imagine imprimată in relief, Aceste „imagini tactile” (Eriksson”! 1998) pot avea o 
°l Eriksson, Yvonne, Tactile pictures: pictorial representations for the blind, Acta Universitatis 
Gothoburgensis, 1998, 
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mare utilitate pentru persoanele cu deficienţe vizuale deoarece permit obținerea unor 
informații cu privire la poziţiile, mărimea şi formele obiectelor (Kennedy 1993). Un 
rezultat recurent, dar nesistematic arată că orbii tardivi au rezultate superioare celor 
ale orbilor din naştere (Heller 1989). 

Primul obiectiv al acestui proiect era de a înţelege capacităţile perceptive și 
cognitive ale persoanelor cu deficiențe vizuale în momentul explorării unor imagini 
fără semnificație, apoi cu semnificaţie. După această primă etapă, care permite o 
bună înțelegere a mecanismelor percepției simțului tactil la nevăzători şi la vazatori, 
s-a pus accentul pe explorarea unor hărţi tactile şi pe conceperea unui dispozitiv 
interactiv multimodal care să permită persoanelor cu deficiențe vizuale să citească 
hărți geografice, 


5.2 Percepția imaginilor prin simțul tactil 


„Imaginile tactile” pot fi create, de exemplu, plecând de la materiale sensi- 
bile la căldură (hârtie Swell) sau sensibile la presiune (foi Mylar). În ambele cazuri, 
urmele grafice apar în relief (1 mm) şi, prin urmare, sunt perceptibile cu degetele 
mâinii. Problema accesibilitatii imaginilor în sistemul tactil face obiectul unei 
dezbateri recente. Într-adevăr, specialiştii în domeniul pipăitului au susținut mult 
timp că simțul pipăitului este potrivit, în principal, pentru înţelegerea obiectelor tridi- 
mensionale şi a calităţilor de suprafaţă ale acestor obiecte (a se vedea, de exemplu, 
Lederman & Roberta L. Klatzky”“ 1987; Révész” 1950). 

Alte studii au arătat totuşi că persoane atinse de cecitate vizuală pot, într-o 
anumită măsură, să înțeleagă şi să producă desene tactile ale unor obiecte comune 
(Heller 1989; Kennedy” 1993). Capacităţile de identificare ale desenelor tactile au 
fost testate şi pe persoane văzătoare, cu un succes temperat (Heller? et al. 2005). 
Astfel, imaginea ar putea să capete un sens prin pipăit, depăşind domeniul de 
percepție clasic vizual al acestui obiect bidimensional. Doar că mecanismele legate 
de percepția şi de identificarea desenelor cu trăsături în relief prin simțul pipăitului 
sunt, în prezent, neînţelese bine şi au nevoie de investigaţii noi. 

| In studiile realizate, s-a examinat rolul experienţei vizuale şi al reprezentării 
vizuale a imaginilor în analiza pattern-urilor tactile 2D simple (fără convenţii de 
desen, precum perspectiva sau ocluzia). S-a comparat capacitatea orbilor precoce şi 
tardivi ŞI a văzătorilor cu ochii acoperiţi într-o sarcină de recunoaştere a pattern- 
urilor 2D, S-a analizat, în special, dacă recunoaşterea acestor pattern-uri depinde de 
tipul de strategie de memorare utilizat (de exemplu, spatial, vizual-spatial, verbal sau 
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kinestezic). S-a arătat că, în ciuda unor diferente semnificative între grupuri în tipul 
de strategie utilizat, nu există nicio diferență de performanţă. Totuşi, rata de recu- 
noaştere este corelată pozitiv cu capacitățile de reprezentare vizual-spaţială a imagi- 
nilor ale subiecţilor văzători. Aceste rezultate permit să se concluzioneze că dificul- 
tatile anumitor nevăzători de a recunoaşte imagini tactile nu se datorează unor difi- 
cultati bazice în ceea ce priveşte analiza unor pattern-uri tactile 2D simple. Interesant 
este faptul că percepția imaginilor tactile 2D ar putea fi ameliorată ameliorând 
capacitățile de reprezentare vizual-spatiala a imaginilor ale nevăzătorilor. 


5.2.1 Recunoașterea prin simţul tactil a unor imagini fără semnificaţie 


Mai multe lucrări arată că percepția imaginilor tactile de către persoanele cu 
deficiențe vizuale variază în funcție de natura imaginii în relief şi de exigenţele 
sarcinii. În timp ce formele geometrice simple (ca un dreptunghi) sunt recunoscute cu 
“uşurinţă (Heller” 1989), identificarea se dovedeşte a fi mai dificilă atunci când 
desenul reprezintă structura tridimensională a unui obiect urmând convențiile vizuale 
E ederman'” et al. 1990). O constatare recurentă este că, în cazul adulţilor, orbii 

ardivi şi văzătorii îi depăşesc deseori pe orbii precoce. Aceste rezultate se înscriu in 
discuția actuală în cadrul căreia se confruntă două teorii cu privire la rolul experienţei 
vizuale şi al reprezentării vizuale a imaginilor în percepţia unor imagini tactile. 
Teoria propusă de Lederman şi colaboratorii (Lederman’” et al. 1990) sugerează că 
identificarea imaginilor tactile este mediată prin reprezentarea vizuală a imaginilor. 
În schimb, Kennedy (Kennedy 1993) susține ideea că identificarea de imagini 
tactile este posibilă fără vreo experiență vizuală şi fără o reprezentare vizuală a 
imaginilor, deşi destul de dificil; prin urmare, ar putea fi amodală. 

S-a abordat această discuţie punându-se problema rolului experienței vizuale 
şi al reprezentării vizuale a imaginilor în analiza unor imagini tactile 2D (Delphine 
Picard!” et al. 2010). Formele 2D fără semnificaţie sunt utile pentru a controla faptul 
că eventualele dificultăţi de recunoaştere nu sunt legate de dificultăți de interpretare. 

Au fost comparate performanțele unor orbi precoce (OP), tardivi (OT) şi a 
unor văzători cu ochii acoperiţi (V) în timpul unui test de recunoaştere a unor imagini 
2D fără semnificaţie (Fig. 14). S-a analizat şi dacă există vreo corelaţie între 
recunoaşterea acestor imagini tactile 2D şi tipul de strategie mnezică utilizat de 
participanţii OP, OT şi V. Nu s-a remarcat nicio diferență semnificativă între grupuri 
în ceea ce priveşte recunoaşterea şi, aceasta, în ciuda utilizării unor strategii diferite. 
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Fig. 14. Exemple de imagini fără semnificaţie (Delphine Picard et al, 2010). 
5.2.2 Recunoasterea prin simtul tactil a unor imagini cu semnificatie 


Sistemul haptic permite identificarea unor obiecte comune. Această identi- 
ficare este foarte performantă (aproape 100%) şi are la bază mecanisme de explorare 
care permit o identificare în 1 până la 2 secunde (Roberta L. Klatzky™ et al. 1985). 
Dimpotrivă, sistemul haptic este mult mai putin eficient în ceea ce priveşte iden- 
tificarea unor desene cu trăsături în relief ale unor obiecte comune. Procesul este 
mult mai lung deoarece este de ordinul a 90 de secunde, cu o performanță care nu 
depăşeşte 33% (Lederman’” et al. 1990). În modelul de identificare prin simțul tactil 
propus de Lederman!% et al. (1990), recunoaşterea unor desene cu trăsături în relief 
implică patru etape, dintre care o etapă de mediere vizuală. 


5.2.2.1 Obiecte comune 

S-a elaborat un studiu (Samuel Lebaz’” et al. 2011) care confirmă că repre- 
zentarea vizuală a imaginilor este implicată în recunoaşterea prin simţul tactil a unor 
desene cu trăsături în relief ale unor obiecte comune. Pentru a măsura capacitățile 
subiecţilor de reprezentare a imaginilor, s-a utilizat versiunea revizuită a Minnesota 
Paper Form Board (MPFB, Likert & Quasha! 1941). Apoi, s-au corelat perfor- 
mantele de identificare prin simţul tactil cu capacităţile de reprezentare vizual-spa- 
țială a imaginilor. Rezultatele evidenţiază faptul că cei cu o reprezentare vizual- 
spaţială a imaginilor mai puternică au performanțe mai bune de recunoaştere decât 
cei cu o reprezentare vizual-spaţială a imaginilor mai slabă. Însă, timpii lor de răs- 
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puns sunt echivalenți. În acest studiu, s-au utilizat două tipuri de desene cu trăsături 
în relief care diferă prin prezenţa sau nu a unor indicii 3D, ca unele distorsiuni de 
proiectare (Fig. 15). Conform rezultatelor lui Lederman!” et al. (1990), subiecţii erau 
mai buni şi mai rapizi în identificarea desenelor 2D decât 3D. Surprinzător, capa- 
citățile de reprezentare vizual-spatiala a imaginilor au avut un efect asupra recu- 
noasterii 2D prin simţ tactil, dar nu şi asupra identificării desenelor 3D. 


PABST || OAL ag | 
CZI* ile mow 


Fig. 15. Desene 2D (stânga) şi 3D (dreapta) utilizate în studiul lui Samuel Lebaz &al., 2010 


5.2.2.2 Clasificarea emoţiilor pe chipuri (pe figură) 


În final, o problemă deosebit de interesantă a fost aceea de a afla dacă adulții 
nevăzători pot înțelege expresii faciale emoționale explorând imagini cu trăsături în 
relief. Prin urmare, s-a elaborat un ultim studiu în care adulți văzători şi orbi trebuiau 
să clasifice imagini reprezentând chipuri ce exprimau diferite emoţii. În timp ce rata 
de succes nu varia semnificativ între cele două grupuri, adulţii orbi erau mai rapizi. 
S-a arătat şi că există corelaţii puternice între clasificările realizate de orbi şi de 
văzători. Acest lucru confirmă faptul că anumite imagini tactile pot fi înţelese fără a 
recurge la reprezentări ale imaginilor sau la experienţa vizuală (Heller! 1989; 
Kennedy!!! 1993; Delphine Picard!!? et al. 2010). 


5.2.3 Concluzii cu privire la percepția imaginilor prin simțul tactil 


Lucrările precedente au arătat că nevăzătorii au performanţe echivalente cu 
cele ale subiecţilor văzători pentru a percepe forme tactile simple, fără semnificaţie. 
Prin urmare, se pare că nu există, la orbi, un deficit deosebit în mecanismele de bază 
ale percepţiei prin simţul tactil. Atunci, eventualele diferențe de performanţă în ceea 
ce priveşte recunoaşterea observate între orbi şi văzători ar putea proveni din 
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conţinutul semantic ataşat imaginilor sau din codurile picturale care le compun. 
Studiul percepției de imagini cu semnificaţie la văzători evidenţiază faptul că 
capacităţile de reprezentare a imaginilor sunt corelate cu performanţa în ceea ce 
priveşte recunoaşterea imaginilor 2D, însă nu gi a imaginilor 3D. Este probabil că 
percepţia imaginilor 3D este dependentă de mecanisme de integrare suplimentare. 

n final, s-a arătat că nevăzătorii sunt capabili să recunoască emoții pe 
imagini tactile ale unor chipuri. Rezultatele sugerează că procesele de recunoaştere 
sunt bazate pe indicii locale mai degrabă decât pe o analiză globală a chipului. 


5.3 Conceperea unui dispozitiv interactiv de asistare pentru explorarea 
hărților 


Există mai multe faze în navigare. Pregătirea permite obținerea unei vederi 
de ansamblu a zonelor în cauză şi crearea unui itinerar pentru a ajunge la destinație. 
De obicei, persoanele cu deficienţe vizuale efectuează această procedură înainte de a 
se deplasa, într-un mediu sigur. Hărțile tactile sunt utilizate în educaţia persoanelor 
cu deficienţe vizuale de mult timp pentru a transmite idei care au o componentă 
spaţială. Ele au fost utilizate ca ajutor pentru orientare (Golledge''* 1991) şi ca ajutor 
pentru învăţarea mobilităţii (Ungar!"* et al. 1993; Ungar!!* et al. 1995). Hărțile tactile 
permit extinderea înţelegerii unui mediu dincolo de ceea ce permite experiența 
directă. Cu toate acestea, o hartă fără etichete şi legende este inutilă, ceea ce pune 
probleme în conceperea şi utilizarea hărților tactile. Într-adevăr, etichetarea în Braille 
nu este flexibilă şi devine repede supărătoare (Tatham & Dodds''® 1988). Iar 
utilizarea de etichete într-o legendă separată reduce rapiditatea percepției şi introduce 
probleme de interpretare (Hinton! 1993). 

n prezent, există numeroase instrumente disponibile pe internet (de exemplu 
Google Maps) care permit consultarea de hărți şi selectarea de itinerare. În plus fata 
de hărţile vizuale, aceste instrumente dau indicaţii textuale de ghidare sub forma unor 
foi de drum (itinerar descris într-un reper egocentric) care pot fi accesibile datorită 
unui cititor de ecran. Totuşi, după cum s-a precizat anterior, aceste instrumente au la 
bază sisteme informaţionale geografice concepute pentru vehicule. Acestea nu permit 
generarea de itinerare pentru pietoni, cu atât mai putin pentru pietoni cu deficiențe 
vizuale, În toate cazurile, aceste instrumente nu permit dobândirea unei reprezentări 
alocentrice a mediului care este suportul necesar aplicarea unor strategii cognitive. O 


soluţie ar fi să se conceapă o hartă digitală multimodală (nevizuală) care să includă 
itinerariul dorit, 
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Heuten”? et al (2006) au propus o interfaţă de sonificare 3D pentru a explora 
hărţile oraşelor. Datorită unei navigări cu ajutorul tastaturii, fiecare tip de obiect 
geografic şi fiecare tip de reper sunt asociate unui sunet gi, prin urmare, pot fi 
identificate. 

Potrivit lui Golledge (Golledge'”” et al. 2005) adăugarea de informaţii sonore 
hărților în relief le face mai uşor de înţeles. Există câteva proiecte! (Gallagher & 
Frasch??? 1998: Jacobson??? 1998; Wang’? et al. 2009) care propun hărți audio-tactile 
interactive ce au la bază un support monotouch (o singură atingere este recunoscută 
de suportul inetractiv). 

ABAplans permite utilizatorilor să se repereze, să găsească un loc, să pregă- 
tească deplasări şi să se informeze cu privire la transporturile publice. Dispozitivul 
constă într-un plan în relief aşezat pe un ecran monotouch. Apăsând pe plan, 
comentarii sonore indică numele străzilor, al intersectiilor şi al punctelor de interes. 
Mai multe moduri pot fi activate prin butoane în braille. Butonul P activează modul 
„plan”, care permite explorarea planului indicând numele străzilor. Butonul O 
activează modul orientare, care dă informaţii cu privire la distanţe şi direcţii în raport 
cu un punct de referință. Butonul I permite parcurgerea itinerariilor. In sfârşit, 
butonul T dă acces la informaţii privind transporturile publice. 

Cu toate acestea, tehnologia monotouch are importante limitări în ceea ce 
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5.3.1 Concepţia participativă 


Hărțile pot fi utilizate în diverse moduri şi cu diverse obiective. Pentru a fi în 
măsură să asiste persoanele cu deficienţe vizuale, este important să se înțeleagă 
utilizarea şi proprietățile hărților oraşului. 

O sarcină importantă a utilizatorilor de planuri ale oraşului este de a explora 
o regiune necunoscută şi de a obţine o idee cu privire la organizarea sa generală. 

O a doua sarcină la rezolvarea căreia hărţile pot contribui este de a cunoaşte 
împrejurimile unui amplasament specific. Utilizatorul vrea să ştie care sunt obiectele 
geografice apropiate de acest loc şi în ce direcție se află acestea. 

O a treia sarcină are în vedere localizarea absolută într-un oraş a unor locuri 
importante, precum gările, parcurile, staţiile de transport public, centrele comerciale 
etc. Evident, hărţile au şi rolul de a planifica un itinerar de la un punct de plecare 
către un punct de sosire. În acest cadru, este important să poţi măsura distanțe 
relative sau absolute. În timpul unei deplasări, harta poate ajuta şi la orientare. 

O întrebare tipică la care utilizatorul doreşte să răspundă este: unde sunt 
acum şi în ce direcție merg? Prezenta lucrare analizează hărţile de oraş, care, de 
obicei, furnizează informaţii cu privire la caracteristicile geografice ale oraşelor şi 
cartierelor acestora, străzilor, staţiilor de transport public, clădirilor publice, pieţelor, 
parcurilor, fluviilor şi râurilor, monumentelor, hotelurilor şi anumitor magazine. 

Trebuie separate cele două cazuri de întrebuințări, cel al pregătirii unui 
itinerar în amonte şi cel al ghidării în timpul deplasării, deoarece informaţiile de care 
are nevoie persoana cu deficiențe vizuale diferă în cele două situații. Hărțile 
interactive multimodale plasează pregătirea itinerariului înaintea deplasării. 

S-a dovedit că anumite informaţii sunt primordiale pentru o majoritate de 
persoane cu deficiențe vizuale care doresc să pregătească o deplasare. Aceste infor- 
matii se referă, in special, la locurile care trebuie evitate in cursul deplasării, precum 
piețele şi spaţiile deschise care provoacă dezorientări, sensurile giratorii, zonele 
delimitate unde toate reperele au dispărut, trotuarele prea largi deoarece, în mod 
paradoxal, sunt deseori încărcate de terasele cafenelelor, trotuarele prea înguste care 
nu permit circulația cu bastonul etc. Dimpotrivă, alte spaţii trebuie privilegiate. Este 
vorba de intersecțiile simple, străzile calme, marile bulevarde etc. Astfel, aceste 
diverse zone au căpătat o importanță negativă sau pozitivă în funcție de valența lor şi 
de preferinţele diversilor utilizatori. O primă funcţie a unei hărţi interactive ar putea 
deci să se refere la asistarea planificării unui traseu, evitând zonele dezagreabile sau 
periculoase gi incluzând zonele preferate. 

În timpul planificării unui itinerar, utilizatorii caută o referință (o clădire cu- 
noscută sau un punct cardinal), apoi o direcţie generală în raport cu această referință. 
Informaţiile care privesc numărul şi numele străzilor întâlnite sunt utile, 

Cu ocazia acestei analize, a fost abordat un aspect nou: în plus față de asis- 
tarea navigării, utilizatorilor le-ar plăcea să aibă o experienţă agreabilă pregătind tra- 
seul și deplasându-se, Acest punct, în legătură cu experienţa utilizatorului nu este luat 
prea des în considerare în conceperea dispozitivelor de asistare, 
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5.3.2 Prototip 


Principiul care a fost reţinut in ceea ce priveşte un prototip de hartă 
interactivă multimodală este cel al unei hărți pe hârtie cu trăsături în relief, aşezată pe 
un ecran interactiv multitouch. Un astfel de prototip permite o mare flexibilitate în 
ceea ce priveşte configurările hărților, interacțiunile, testele şi evaluările. Aceasta 
implică determinarea ecranelor interactive compatibile şi producerea de hărţi 
compatibile. 


5.3.2.1 Hărţi în relief 


Imaginile în relief sunt obţinute în mai multe moduri. Se utilizează, în spe- 
cial, două procedee: fie datorită unor materiale sensibile la căldură (hârtie Swell), fie 
prin presiune pe o folie de plastic deformabilă (hârtie Mylar). În ambele cazuri, 
urmele obţinute prezintă un relief (1 mm) şi devin perceptibile cu degetele mâinii. 

Planurile în relief au o istorie lungă în domeniul geografiei (Golledge™ et al. 
2005), Reliefarea adaugă o dimensiune care aduce imformafii suplimentare hărților 
vizuale. Se utilizează planuri în relief pentru a reprezenta topografia. Evident, există 
Şi planuri în relief concepute special pentru persoanele cu deficienţe vizuale. 


Fig. 11. Stânga: harta Australiei pe hârtie lermoformată (se disting etichetele şi legenda 
în Braille). Dreapta: caiet suplimentar, cu simbolurile utilizate, care însoţeşte hărțile. 


Planurile conţin deseori etichete sub formă de abrevieri în Braille; în acest 
caz, ele necesită o legendă care explică abrevierile. Simbolurile utilizate diferă de la 
un plan la altul, prin urmare este necesar să se adauge o legendă care explică 
simbolurile utilizate (a se vedea Fig. 11). Utilizatorii comandă aceste produse la 
RNIB (Royal National Institute of Blind People) în Anglia sau la „The Princeton 


ma 


Braillelists” în Statele Unite ale Americii. 


14 Golledge, Reginald G., Matthew Rice & Daniel R. Jacobson, A Commentary on the Use of Touch 
Jor Accessing On-Screen Spatial Representations: The Process of Experiencing Haptic Maps and 
Graphics, The Professional Geographer 57.339-49, 2005. 
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Fig. 17. Imaginea din stânga: cuptor pentru producţia de hărți termoformate. 
Imaginea din dreapta: Harta unui cartier din Toulouse produsă la IRIT. 


Munca lui Anke Brock (Anke Brock’ 2010) a permis instituirea, la IRIT, a 
întregului lant de producție de hărţi în relief. Metoda de producţie pe care am ales-o 
este cea a hârtiei termoformate („swell paper”). Planul este imprimat pe o hârtie 
specială care conține în învelişul său microcapsule cu alcool. Când este trecută prin 
cuptor, capsulele de alcool se măresc şi creează relieful (a se vedea Fig. 17). Această 
tehnică este, în primul rand, mai putin costisitoare decât celelalte. Imaginile pot fi 
pregătite cu uşurinţă pe un calculator şi este simplu să se imprime din nou aceeaşi 
imagine. De altfel, această tehnică este adaptată în mod special pentru utilizarea de 
hărți cu durată scurtă de viata. 

În opinia lui Tatham! (1991) este preferabil să se limiteze numărul minim 
de mărci tactile, iar criteriile pe care el le propune pentru o bună concepție a hărții 
sunt: claritatea, pertinenta şi precizia; fiecare dintre aceste criterii se aplică pentru 


Sey) 


dimensiunile „obiectiv”, „aşezare în pagină” si „producție”. 
5.3.2.2 Ecran interactiv multitouch 


Mai multe interfeţe tactile bazate pe diferite tehnologii (rezistivă, capacitiva, 
FTIR, infraroşie, cu unde de suprafaţă etc.) au fost testate. În final, s-a optat pentru 
un ecran multitouch Stantum. Prototipul este compus din patru module conectate prin 
„middleware Ivy”: pilotul adaptat reacționează la evenimentele care sunt transmise 
hărții în format SVG. Elementul atins pe hartă declanşează un mesaj care activează 
ieşirea audio cu condiţia ca aceasta să corespundă unei atingeri (ieşirea sunetului nu 
trebuie să fie declanşată în timpul explorărilor). Se utilizează o configurație modulară 


pe magistrală logică, ceea ce permite adăugarea cu uşurinţă a unor funcționalități (de 
exemplu, un afişaj Braille), 
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Fig. 18. Prototip de hartă interactivă multimodală care include o hartă pe hârtie 
aşezată pe un ecran multitouch. Elementele importante pot să transmită 
o informaţie sonoră şi/sau în Braille. (imagine preluată din Anke Brock 2010 ITS) 


5.3.2.3 Captura mişcărilor degetelor 


Un studiu recent pe adulți văzători (Wijnţjes!” et al. 2008) arată că sunt 
implicate multiple comportamente de explorare atunci când participanţii trebuie să 
identifice imagini cu trăsăturile în relief ale unor obiecte comune (e.g., explorare 
dinamică cu două mâini, explorare cu un singur deget, a se vedea Fig. 19). Anumite 
comportamente permit, probabil, o explorare mai completă a imaginii decât altele. 
S-a dovedit că studiul strategiilor de explorare utilizate de văzători şi de nevăzători ar 
putea avea consecințe importante asupra calității reprezentărilor mentale generate, 
precum şi asupra concepției unui prototip de hartă interactivă multimodală. Prin 
urmare, s-a dezvoltat un modul de captură a mişcării şi de recunoaştere a degetelor 
bazată pe Kinect. Captura traiectoriilor degetelor prin Kinect este cuplată la 
evenimentele de pe ecran. Ansamblul permite înregistrarea traiectoriilor fiecărui 
deget identificându-le. Prin urmare, va fi posibil să se analizeze strategiile de 
explorare a hărților tactile (Fig. 19). 
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Fig. 19: Exemple de strategii de explorare. 
Aici subiectul utilizează fie indexul unei singure mâini, fie ambele indexuri simultan. 


197 Wijntjes, Maarten W., Thijs van Lienen, Ilse M. Verstijnen & Astrid M. Kappers, The influence of 
picture size on recognition and exploratory behaviour in raised-line drawings, Perception 37.602- 
14, 2008. 
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Fig. 20. Dispozitiv experimental care permite studierea strategiilor de explorare a hărților 
tactile. 


Figura 20 prezintă un dispozitiv experimental care permite studierea strate- 
giilor de explorare a hărților tactile. Dispozitivul include harta interactivă multimo- 
dală şi un sistem de captură şi de recunoaştere a degetelor. 

Harta multimodală accelerează şi ameliorează analiza informaţiilor spaţiale, 
pe de o parte, şi ameliorează satisfacția utilizatorilor. 24 de subiecţi nevăzători au 
fost testati în explorarea unor hărți pe hârtie şi interactive, utilizând un ansamblu de 
întrebări referitoare la prezența unor repere, la itinerare şi la configuratiile locurilor 
explorate, adresate imediat după explorare şi la o săptămână după explorare. În 
colaborare cu Delphine Picard, s-au analizat rezultatele şi s-a pus în evidență o 
absență a deficitelor perceptive la persoanele cu deficiențe vizuale şi capacitetea 
acestora de a recunoaşte imagini cu semnificaţie. 


Concluzii generale 


Primul rezultat important este colaborarea perenă a echipei ELIPSE cu 
Institutul Tinerilor Orbi din Toulouse, care permite punerea în aplicare a tuturor 
proiectelor de cercetare initiate si, în consecință, înțelegerea cognitiei spatiale a 
persoanelor cu deficiențe vizuale prin intermediul unor experiențe de psihologie 
experimentală, De asemenea, această colaborare permite conceperea unor dispozitive 
printr-o metodă de concepţie participativă care include utilizatori finali şi formatori 
de la centru. Această metodă, care a fost adaptată pentru a permite lucrul cu 
persoanele cu deficienţe vizuale (Anke Brock!2* et al. 2010b) se aplică atât evaluării 
unor tehnici de interacţiune specifice (localizare spaţială prin sunete 3D, de 
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exemplu), cât şi conceperii unor dispozitive complete (cum ar fi prototipul dispo- 
zitivului de asistare pentru navigare). 

Lucrările realizate demonstrează că supleanta spaţială prin localizare de 
obiecte datorită realităţii auditive mărite este o abordare funcţională. Într-adevăr, s-a 
arătat mai întâi că este posibil să se localizeze sunete reale în s atiul peripersonal in 
scopul de a pozitiona mana pe tinta sonora (Florian Dramas!’ et al. 2008). Aceste 
lucrări sunt in curs de replicare într-un spaţiu virtual (în colaborare cu LIMSI). Pe 
plan fundamental, ele vor duce la o mai bună definire a indiciilor acustice care permit 
localizarea tridimensională a sunetelor. Pe planul IHM, vor permite conceperea unei 
metode de desemnare desemnare spaţială în câmpul peripersonal. Rezultatele preli- 
minare realizate cu sunete virtuale arată că este posibil să se utilizeze metafore spe- 
ciale sau efecte pentru a ameliora localizarea în spaţiul virtual apropiat. Această 
metodă de desemnare spaţială va putea fi utilizată într-un ansamblu de sarcini 
primordiale pentru persoanele cu deficienţe vizuale. Se va putea recupera, în special, 
comportamentul vizual-motor de localizare şi apucare a obiectelor!“ De asemenea, 
se vor putea indica eventuale obstacole pe traiectoria de apucare a obiectelor. În plus, 
s-a arătat deja că era posibil să se specifice direcțiile (azimut) prin localizarea unor 
ținte sonore in câmp îndepărtat (Roberta L. Klatzky'*! et al. 2002). Această facultate 
ar putea fi utilizată pentru a recupera comportamentul senzorial-motor care constă în 
a se îndrepta către un reper îndepărtat, identificat în câmpul vizual. Acest lucru 
permite, de exemplu, să te indrepti către o cutie poştală detectată în spațiul apropiat. 
Prototipul dispozitivului de asistare prin sinteză binaurală actual integrează aceste 
două funcţii. El va fi evaluat într-un ansamblu de scenarii care au la bază localizarea 
de obiecte maimult sau mai putin apropiate în scopul de a se apropia de ele sau de a 
le apuca. Interesant este faptul că dispozitivul facilitează convergenta funcțiilor 
deoarece poate fi utilizat pentru a identifica obiecte similare (Rémi Parlouar'*” et al. 
2009). Această observaţie este foarte importantă deoarece, în ipoteza unei utilizări 
reale a dispozitivului, utilizatorii refuză, foarte logic, să ia cu ei mai multe dispozitive 
specifice pentru îndeplinirea unor sarcini diferite. 

Acest studiu care se referă la ameliorarea poziționării şi a ghidării pentru 
persoanele cu deficienţe vizuale scoate la iveală şi alte două rezultate importante. 
Mai întâi, s-a conceput un sistem informaţional geografic care permite integrarea 
nevoilor persoanelor cu deficienţe vizuale în ceea ce priveşte clacularea itinerariului 


ia Dramas, Florian, Brian F.G. Katz & Christophe Jouffrais, Auditory-guided reaching movements in 
the peripersonal frontal space, Paper presented at the The Journal of the Acoustical Society of 
Americ: 
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si ghidarea (Slim Kammoun!* et al. 2010). Acest system informational geografie va 


A utilizat în toate cercetările cu privire la asistarea electronică pentru pregătirea itine- 
rariilor şi navigarea persoanelor cu deficiențe vizuale, Al doilea rezultat important 
este că se pot utiliza repere geolocalizate pentru a ameliora poziţionarea persoanelor 
ca deficiențe vizuale (Adrien Brilhault™ et al, 2011). În prezent, s-au obținut rezul- 
tate suplimentare care arată că este posibil să se fixeze un traseu GPS datorită 
prezentei unui mic număr de repere pe parcurs, 

Prototipul actual de dispozitiv integrează cele două funcții de „localizare a 
unor obiecte apropiate” şi „ajutor pentru poziționare”, care sunt activate în mod 
automat în funcţie de sarcină şi de context. De exemplu, într-un scenariu definit de 
curând. utilizatorul trebuie să atingă o destinație (uşa IRIT) fiind ghidat pe un traseu 
de aproximativ 500 m. Poziționarea utilizatorului este ameliorată de detectarea unor 
ținte geolocalizate de-a lungul parcursului. Modul de localizare a obiectelor este 
activat în mod automat atunci când utilizatorul se apropie de trecerea de pietoni. 
Trecerea de pietoni este localizată prin vederea integrată, ceea ce permite o ghidare 
mai fină. În prezent, se lucrează la conceperea protocoalelor de experimentare care 
vor permite evaluarea ansamblului funcțiilor implementate în prototip. 

Un alt ansamblu de rezultate importante are în vedere percepția prin simțul 
tactil a unor desene şi hărţi în relief. Datorită unor experienţe în psihologia experi- 
mentală, s-a putut pune în evidenţă o absenţă a deficitelor perceptive la persoanele cu 
deficiențe vizuale şi capacitatea acestora de a recunoaşte imagini cu semnificație 
(Samuel Lebaz™ et al. 2010; Delphine Picard!“ et al. 2010; Delphine Picard!” et al. 
2011; Samuel Lebaz! et al. 2011). Lucrările actuale se referă la concepția partici- 
pativă a unui prototip interactiv care permite explorarea hărților şi pregătirea deplasă- 
rilor (Anke Brock!” et al. 2010a). Acest prototip va servi ca platformă pentru eva- 
luarea unor noi metode de interacțiune multimodale nevizuale. Metodele de ghidare 
şi dobândirea competenţelor spațiale vor fi evaluate comparând diferite tehnici de 
inetractiune cu dispozitivul. Această abordare a supleantei spatiale prin localizare s-a 
aplicat în cadrul interfetelor creier-maşină. Experiențele realizate cu simulatorul au 
arătat că utilizatorii sunt capabili să realizeze sarcini de localizare şi de apucare a 


133 . . . . ee) 
Kammoun, Slim, Dramas Florian, Bernard Oriola & Christophe Jouitrais, Route selection algorithm 
for Blind pedestrian, Paper presented to the International Conference on Control, Automation and 
AI Systems, Gyeonggi-do, South Korea, 2010, 
Brilhault, Adrien, Slim Kammoun, Olivier Gutierrez, Philippe Truillet & Jouttrais Christophe, 
og of Artificial Vision and GPS to Improve Blind Pedestrian Positioning, Paper presented at the 
sa IFIP International Conference on New Technologies, Mobility and Security, Paris, France, 2011. 
pe pomi l, PSP a & Christophe Jouffrais, Haptic Recognition of Non-figurative 
i E M i Blind: Does Life-Time Proportion without Visual Experience Matter?, 
ama staan “Sar Lan, Christophe Jouftrais & Catherine Monnier, Haptic recognition of 
e Pisception 39.224.38, = a patterns by early-blind, late-blind, and blindfolded sighted adults, 
Picard, Delphine, Christophe Jouffrais & Samuel Leb 


az, Haptic Receeniti MBs ations in Raised: 
ree Line Drawings by Congenitally Blind and Sig aptic Recognition of Emotions in Raised 


Lebaz, Samuel, Christophe Jouftrais & ayaa : laptics, IEEE Transactions on 4.67-71, 2011. 
iaa: a i als & Delphine Picard, Haptic identification of raised-line 
drawings: high visuospatial imagers outperform low visuospatial imagers te Rene 2011 


riola & Christophe Joutfrais, U fi i 
] S, Usage o; raps 
aper presented to the ITS'10, 2010a. paee 


3 Brock, Anke, Philippe Truillet, Bernard O 
Jor blind people: why and how, P 


Tehnologii de asistare a persoanelor cu deficienţe vizuale 


obiectelor mult mai repede decât cu o abordare tradițională de tipul scoreboard”. 
Aceste rezultate capătă importanță ştiind că mai multe programe de implantare de 
retine artificiale sunt în curs în present, inclusive în Franța. Abordarea permite 
utilizarea implanturilor într-un mod mult mai util şi utilizabil în sarcini de localizare 


şi navigare decât prin abordarea tradițională. 


Fig. 21. Prototip actual asigură două funcţii de ajutor: localizarea de obiecte 
apropiate şi poziţionarea. (figură preluată din Brian F.G. Katz el al, VRJ 2012). 


Figura 21 prezintă un dispozitiv care integrează camere stereoscopice cu o 
centrală inerţială, un GPS cu o centrală inertiala si un ansamblu de interacțiuni 
intrare/ieşire bazate pe voce şi sunet. 


6. Proiecte de cercetare în dezvoltare 


Cercetarea întreprinsă în aceşti ultimi ani a permis validarea ipotezei de loca- 
lizare a obiectelor ca bază pentru supleanta spaţială. S-a demonstrat că cele două 
tipuri de supleanté avute în vedere (prin realitate mărită şi prin interacțiune creier- 
maşină) sunt funcţionale. S-au prezentat, în special, primele rezultate şi prototipurile 
unui dispozitiv de asistare pentru navigare care include un sistem de vedere artificială 
(camere + algoritm de recunoaştere şi localizare a obiectelor), o arhitectură distri- 
buită care permite fuzionarea oricăror tipuri de date în intrare şi un sistem de sinteză 
binaurală în ieşire care permite mărirea obiectelor în spațiu cu informaţii sonore vir- 
tuale. Această abordare, materializată printr-un dispozitiv experimental, este astăzi 
baza unui proiect de colaborare (NAVIG), finanțat de ANR şi etichetat de polul de 
competitivitate Aerospace Valley'. În secțiunea următoare, vor fi descrise piedicile 
apărute în derularea acestei cercetări, la care se lucrează în prezent şi în următorii doi 
ani, 

Pe parcursul avansării acestei cercetări cu privire la asistarea navigării, s-a 
identificat clar importanţa de a concepe un simulator de navigare în realitatea vir- 
tuala. Acest simulator ar permite evaluarea tehnicilor de poziţionare şi conceperea 
unor metode de interacțiune gi de ghidare novatoare, mai rapid, în situaţii controlate 


1% A se vedea http://navig. irit. fr 
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şi fără rise pentru utilizatori!!! O altă ipoteză este că aceste metode vor fi transfe- 
rabile într-o situaţie reală, in situ. 

Al patrulea aspect al cercetării are în vedere explorarea unor hărți interactive 
multimodale. Este deosebit de important pentru persoanele cu deficiențe vizuale să 
poată pregăti o deplasare căutând repere şi itinerarii adaptate capacităţiilor şi tehni- 
cilor lor de mobilitate şi de orientare. Se doreşte extinderea acestei cercetări către 
IHM, prin interacțiunea multimodală cu hărți în relief interactive. 

De asemenea, este foarte important tematica interfetelor creier-maşină gi a 
simulatorului de neuroproteză conceput. Acest simulator este bazat pe ipoteza princi- 
pală conform căreia localizarea unor obiecte pertinente în funcţie de sarcină şi de 
context permite recuperarea a numeroase comportamente vizual-motorii. Împreună 
cu Mare Macé, s-a planificat realizarea a numeroase lucrări referitoare la aspectele 
tehnologice, fundamentale şi comportamentale ale neuroprotezelor vizuale. 

În colaborare cu Institutul Tinerilor Orbi din Toulouse, se încearcă reunirea 
cercetătorilor, a persoanelor cu deficiențe vizuale şi a formatorilor în jurul unor pro- 
iecte comune privind tehnologiile de asistare pentru persoanele cu deficienţe vizuale. 


7 Asistare electronică pentru navigare 


7.1.1 Descrierea proiectului 


Obiectivul final al proiectului este de a concepe un demonstrator interactiv 
care să permită evaluarea pe loc (la universitate, dar şi în centrul oraşului) a dispo- 
zitivului NAVIG în scenarii clar definite ca problematice pentru persoanele cu defi- 
ciente vizuale. Această evaluare este posibilă datorită participării Institutului 
Tinerilor Orbi, pe de o parte, şi datorită proiectului Toulouse OPEN care pune la 
dispoziția cercetătorilor toate instrumentele necesare evaluării precise, in situ, a 
dispozitivului. Pentru obţinerea şi modificarea bazelor de date geografice, s-a realizat 
o colaborare cu serviciul SIG al comunității Grand Toulouse. Dintr-un punct de 
vedere fundamental, acest proiect va permite realizarea unor progrese importante în 
neuroştiinţe (percepţie auditivă, acțiuni auditive ghidate, cognitie spaţială la nevă- 
zători), dar şi în domeniul supleantei pentru nevăzători (interacțiunea om-maşină 
întrebuințări si utilizabilitate a sistemelor de supleanta). 


7,1,2 Principalele obstacole 


N e poe tehnologice se situează la nivelul vederii artificiale şi a 
penn i ȘI sole è o ia se situează, pentru neurostiinte, la nivelul 
ercepţ iale 3D si al acţiunii ghidate auditiv, i 
e 3I auditiv, iar pentru IHM, la 
nivelul supleanţei funcţionale şi al interacțiunii degradate. at 
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Unul dintre obstacolele tehnologice ale modulului de vedere artificială 
constă în specificarea şi conceperea numărului, mărimii şi ierarhiei modelelor nece- 
sare pentru a ajunge la o fiabilitate şi o robustete de detectare a țintelor (in special 
3D) compatibilă cu intrebuintirile dispozitivului. Un obstacol de ordin ştiinţific 
constă în studiul şi dezvoltarea unui algoritm care pormite modificarea, în mod dina- 
mic, a rezolutiilor de cercetare a modelelor, precum şi utilizarea fluxurilor optice 
pentru detectarea obstacolelor. Aceste aspecte teoretice şi aplicarea lor la supleanta 
pentru nevăzători vor fi adresate în cadrul colaborării între IRIT, CerCo şi SpikeNet 
Technology şi, în special, în cadrul tezei lui Adrien Brilhault. 

Obstacolele potențiale pentru ghidarea auditivă sunt conflictele între redarea 
audio şi lumea reală, precum şi designul ergonomic al paletelor de sunete pentru o 
utilizare cotidiană. Aceste două aspecte fac să apară constrângeri tehnologice şi ergo- 
nomice. Pentru componenta tehnologică, LIMSI, partener al proiectului, lucrează la 
problema echipamentului cel mai bine adaptat pentru realitatea auditivă mărită şi se 
va referi la problemele legate de designul sonor şi de ergonomie. În colaborare cu 
aceştia (echipa lui Brian F.G. Katz şi M. Denis), se va încerca o mai bună înțelegere 
a capacităților perceptive şi cognitive ale utilizatorilor, precum şi acţiunile care 
survin de aici. Această cercetare a fost inițiată în cadrul tezei lui Florian Dramas la 
IRIT si este reluată în cadrul tezei lui Gaétan Parseihan, condusă de Brian F.G. Katz 
(LIMSD). 

La IRIT, în colaborare cu Philippe Truillet, MCU în informatică din echipa 
ELIPSE, se derulează o cercetare cu privire la fuziunea unor date heterogene (în 
special poziționarea GPS, centrala inerţială şi vederea), luând în considerare 
constrângerile legate de sistemele informaţionale geografice. 

Această fuziune poate fi asimilată unei fuziuni „multimodale” în care datele 
corespund unor fluxuri concurente şi/sau complementare care diferă prin natura, frec- 
venta de eşantionare şi semantica lor. Se va încerca să se demonstreze că fuziunea 
acestor date permite ameliorarea în mod semnificativ a poziționării pietonilor nevă- 
zători în medii zgomotoase (de exemplu, oraşul) şi, prin urmare, creşterea autonomiei 
lor în sarcini de navigare (de exemplu, a merge la poşta din centrul oraşului şi a găsi 
cutia poștală). 

Această cercetare este în curs în cadrul tezei lui Slim Kammoun, condusă de 
Christophe Joufrais, cu ajutorul unui inginer contractual (O. Gutierrez), finanțată prin 
proiectul NAVIG. 


7,2 Simulator de navigare 


EOA (ajutoare electronice pentru orientare) sunt dedicate asistării orientării 


şi sunt constituite din trei elemente esenţiale: 
1) un sistem de poziţionare (GPS de exemplu); | x pa A 
2) un sistem informational geografic (SIG) care cuprinde, în acelaşi timp, o hartă 
digitală si softuri concepute pentru a selecta itinerare, a urmări traseul călătorului 

$ tp . | p .. ant avi re! 
şi a-i furniza informaţii pentru navigare» 5 z sae 
3) o interfață utilizator care are la bază o interacțiune nevizuală (în general auditivă 


sau tactilă). 
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ginea unor probleme legate de efi- 
area de poziţionare GPS care este 
1 este compatibil cu ajutorul pentru navigare 


Toate aceste trei componente sunt la ori 
cienta utilizării. Primul obstacol are în vedere ero 
deseori mai mare de 10 metri, ceea ce nu 


pentru persoanele cu deficienţe vizuale. pini 
Al doilea obstacol are în vedere SIG care, in general, conțin exclusiv infor- 


matii care privesc rețelele rutiere şi nici o informatie relativă la zonele pietonale. In 
sfârşit, ultimul obstacol are în vedere interacţiunea între utilizator şi sistem şi inte- 
ractiunea de ghidare. Acestea trebuie concepute în cadrul unei colaborări cu per- 
soanele cu deficienţe vizuale şi cu formatorii în domeniul locomotiei. 

Pentru a accelera procesele de concepție, mediile virtuale interactive 
reprezintă o platformă prețioasă pentru a izola in mod selectiv diferitele componente 
şi a le evalua în mod sistematic în laborator înainte de a fi evaluate la fata locului. 


Fig. 22. Soft dedicat de simulre a mediului 
zona de amplasare a institutului IRIT (instantiere 


virtual - programat pentru 
din programul conceput la IRIT) 


| S-a demarat dezvoltarea unei platforme 
persoanelor cu deficiențe vizuale să exploreze 
au muve și haptice, Această platformă permite 
mediu virtual care reprezintă un spațiu real (b 
unui oraș, de exemplu), Obiectivul 
R A e 
procene de ghidare înainte de punerea lor în aplicare la fa 
» Aceste teste vor permite să se d termi a 
eficiente pentru a compensa eG ee 
lente ša O poziţionare GPS gresit? 
dobândirea de cunoștințe spaţiale, ia 


experimentale care să permită 
un mediu virtual prin interacțiuni 
utilizatorului să navigheze într-un 
al (bazat pe SIG al unei universități sau al 
acestei platforme este de a testa în mod sistematic 
a locului, în cadrul unui 
Í de ghidare sunt cele mai 
in acelaşi timp ameliorând 
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Fig. 23 Deplasare în zona IRIT, UPS, Toulouse - mediul virtual simulat prin soft 


7.3 Hărţi interactive multimodale 


În continuarea cercetărilor cu privire la percepția hărților prin simțul tactil, 
s-au prevăzut două noi axe de lucru: conceperea de noi interacțiuni în intrare care 
permit explorarea hărților tactile şi conceperea unui sistem de ecran deformabil care 
permite afişarea hărților dinamice şi oferirea unui feed-back tactil. 


7.3.1 Conceperea unor noi metode de interacțiune spaţială 


Lucrarea de analiză realizată în colaborare cu IJA în cadrul tezei lui Anke 
Brock a permis definirea mai multor funcţii care ar fi utile pentru a permite 
persoanelor cu deficiențe vizuale să dobândească cunoştinţe spatiale indispensabile 
înainte de a efectua o deplasare. Un prim ansamblu de funcţii are în vedere asistarea 
planificării unui traseu, evitând zonele desagreabile sau periculoase şi incluzând 
zonele preferate, Un al doilea ansamblu de funcții are în vedere asistarea învățării 
configurației unor zone speciale, incluzând obiectele importante care intră în 
constituţia sa, 

Va fi necesară conceperea, împreună cu utilizatorii, a unui ansamblu de noi 
interacțiuni care să permită implementarea tuturor acestor funcții, apoi evaluarea lor 
din perspectiva eficienței utilizării, dar şi a asistenței procesului de învăţare spațială. 
Se prevede şi evaluarea transferului acestor cunoştinţe atunci când învățarea pe hartă 
este urmată de o deplasare la faţa locului. 
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7.3.2 Redarea informaţiilor tactile 


Tehnologiile tactile actuale se bazează, în principal, pe interacțiuni grafice 
sau sonore (a se vedea tabletele tactile, cu o evoluţie crescândă). Această concepție 
duce la situații şi mai ironice pentru ea cu Ea vizuale, care nu mai au 

ici er tactil pentru a interactiona cu dispozitivul. 

ie "Ne Bin: în N cu şcoala de ingineri ESTIA din Bayonne, la un 
ecran tactil deformabil care ar permite conceperea unor interacțiuni accesibile pentru 
persoanele cu deficiențe vizuale. Obiectivul este, în special, de a putea afişa hărți 
dinamice, ceea ce ar permite, de exemplu, zoom-ul şi defilarea, precum şi feed-back- 
uri în cursul diferitelor interacțiuni. Se urmează astfel o a doua pistă, în colaborare cu 
Universitatea din Lille (a se vedea Casiez!“? et al. 2011), care ar permite utilizarea 
unui feed-back vibrator. Această idée s-ar putea sprijini pe existența a numeroase 
interfețe tactile sau haptice existente şi adaptate pentru a fi utilizate de „către per: 
soanele cu deficiențe vizuale (a se vedea, de exemplu, Velazquez & Pissaloux 
2008). 


7.4  Interfeţele neurale şi neuroprotezele vizuale 


7.4.1 Evocarea unor fosfene localizate şi având semnificație, ca intrare 
pentru comportamentele vizual-motorii 


În colaborare cu CerCo (neurostiinte) Centre de Recherche Cerveau & 
Cognition — Université Toulouse III, LAAS (nanotehnologii) Laboratoire d'Analyse 
et d'Architecture des Systemes, şi clinica de medicină fizică şi reeducare din cadrul 
CHU Rangueil, Centre Hospitalier Universitaire, lucrăm la aspectele tehnologice, 
fundamentale şi comportamentale ale neuroprotezelor vizuale. 

Din punct de vedere tehnologic, derulăm o cercetare referitoare la interfețele 
neurale, la biocompatibilitatea acestora şi la raportul semnal/zgomot. Această cerce- 
tare tehnologică vine în completarea lucrărilor efectuate împreună cu Denis Fize la 
CerCo (Denis Fize! et al. 2009), care au drept obiectiv dezvoltarea unui model de 
neuroproteză vizuală pentru oameni. Pe termen mediu, se prevede testarea proto- 
coalelor de interacţiune definite la IRIT pe animale implantate cu interfețe dezvoltate 
la LAAS. În final, la IRIT, se acordă o mare importanţă cercetării privind simularea 


unei neuroproteze vizuale de localizare a obiectelor, încercându-se să se demonstreze 


cp această abordare permite recuperarea a numeroase comportamente vizual-motorii 
fundamentale, 


142 Casiez, Gery, Nicolas Roussel, Romuald Vanbelleghem & Frédéric Giraud. Surf 
targets on a squeeze film effect, Paper presented at the CHI 2011 V NOORA 
Velázquez, Ramiro & Edwige E, Pissaloux, Tactile displays in h 
hie sole petion Journal of Virtual Reality 7 51-58 2008, 

ae „pur AIE APSO 
vane eee, ae a C hristophe Jouflrais, Visual scene Processing Dynamics in 
mation content of a visual neuroprosthesis, Paper presented at the 

aces Cerveau-Machine, Paris, France, 2009. 


ad: riding towards 
ancouver, BC, Canada, 2011. 
uman-machine interaction: four 


Congrés FRM/IRME/ICM 2009 sur les Interf 
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Pentru a dezvolta o alternativă la abordarea de tip „scoreboard” şi a face 


ae 


dovada conceperii unei heuroproteze de localizare a obiectelor, a fost dezvoltat, la 
IRIT, un prototip şi un post experimental care permite conceperea unui ansamblu de 
experiențe comportamentale ce fac să varieze numărul, poziţia şi spatierea fosfenelor. 
Intensitatea luminoasă va fi, de asemenea, un parametru disponibil (Girvin'5 et al. 


pe localizarea unor ținte, va fi comparată în mod sistematic cu abordarea mai clasică 
de tipul „scoreboard”, Precizia comportamentelor în spaţiu va fi măsurată fie în 2D 


> 


având ca principiu recunoaşterea şi localizarea obiectelor de interes, permite 
construirea unei reprezentări „rarefiate” dar funcţionale a spațiului, care poate fi 
utilizată pentru a produce comportamente orientate către obiecte saulocuri. Această 
abordare este transversală abordării clasice de tipul „scoreboard”. Dacă validăm 
ipotezele emise, vom căuta să punem în practică, pe pacienți implantati, modalitățile 


cadrul unei colaborări, prin una din încercările terapeutice puse în aplicare în prezent 
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ABSTRACT. The 21“ Center of Excellence (COE) group in Shizuoka University 
has proposed the nanovision science as a novel imaging science. An aim of the 
nanovision science is to develop imaging devices having ultimate performance in 
temporal, spatial, dynamic or wavelength ranges by introducing nanotechnology 
into imaging. As nanovision devices, we describe a time-resolved CMOS image 
sensor for time-domain fluorescence lifetime imaging, using an electron beam 
excitation assisted-optical microscope and a CdTe X-ray image sensor, capable of 
identifying the atomic number and electron density. 


KEYWORDS: nanovision science, time-resolved CMOS image sensor, time-domain 
fluorescence lifetime imaging, electron beam excitation assisted optical microscope, 
imaging of biological specimens, photon counting type CdTe X-ray image sensor, dual- 
energy X-ray CT, identifying atomic number and electron density. 


1. Introducere 


Pentru a cunoaşte lumea înconjurătoare, omul foloseşte cele cinci simţuri, dar 
cel puţin 80% din informaţii sunt achiziţionate cu ajutorul vederii. Televiziunea, fiind 
bazată pe imagine, a promovat dezvoltarea democratică prin transmiterea în timp 
real, a unor evenimente care au loc oriunde în lume. Ea a condus la dezvoltarea 
economiei de consum printr-o publicitate puternică şi influentă. Cu alte cuvinte, 
tehnologia bazată pe imagine a contribuit la crearea civilizaţiei industriale moderne, 
având un impact incomparabil mai mare decât informaţia scrisă sau audio. Informația 
video a fost îmbogăţită cu ajutorul tehnologiei informatice care a devenit 


indispensabilă în toate domeniile legate de informaţie, comunicare, divertisment, 
știință, artă, medicină, securitate, 


Slogan Hidenori Mimura, Director Research Institute of Electronics, Shizuoka University, 3-3-1 
p ne 4 ee Lomas ag 437-001 l, Japan, autor a acestui capitol, colaborare dezvoltată ca 
by ae panie p i conferinta InterAcademia 2012, Budapesta, în cadrul proiectului 
Gu A pe unoagtere = cercetări, dezbateri, perspective’, Uniunea Europeană si 
Guvernul României, Fondul Social European prin Programul Operational Sectorial Dezvoltarea 


Resurselor Umane 2007-2013, POS sademi A i 
de Mihaela Costin, 2013, POSDRU 56815, Academia Română: capitol tradus, editat, adaptat, 
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Recent, grupul de cercetare e): Century of Excellence (CE) din cadrul 
Universităţii Shizuoka a propus utilizarea imagisticii cu rezoluţie nanometrică (NV- 
nanovision)”, Unul dintre obiectivele NV constă în dezvoltarea unor dispozitive de 
imagistică cu performanțe de ultimă generaţie, în domeniul temporal, spaţial, 
dinamic sau al lungimii de undă prin utilizarea nanotehnologiei, 

Capitolul de faţă descrie următoarele dispozitive utilizate in NV: 

- un senzor de imagine TR-CMOS (TR — „time-resolved”, CMOS — abrevierea de la 
„complementary metal-oxide-semiconductor”), deci CMOS cu o bună rezoluţie 
temporală, bazat pe măsurarea timpului de viață al fluorescenţei” ; 

- un microscop optic pentru vizualizarea excitării cu un fascicul de electroni; 

=- un senzor de imagine din CdTe în domeniul razelor X care este capabil să 
identifice numărul atomic şi densitatea de electroni’, 


2. Senzor de imagine de tip TR-CMOS pentru imagistica 
timpului de viață al fluorescentei® 


Imagistica de fluorescent este un instrument puternic utilizat in biologie. 

Fluorescenta are două mărimi fizice caracteristice: intensitatea şi durata. 

Măsurarea intensității este dificilă, deoarece aceasta este influenţată de 
concentrația de fluorofor, starea de degradare a acestuia, lungimea de undă şi 
intensitatea fluxului de excitație, sensibilitatea detectorului şi transmitanta sistemului 
optic. Pe de altă parte, măsurarea duratei fluorescentei utilizează rata de scădere a 
intensității. Astfel, cuantificarea, nu este influențată de degradarea intensității 
fluorescentei. 

Metoda de numarare a unui singur foton, corelată în timp, este o metodă 
tipică folosită în microscopia imagistică a timpului de viata al fluorescentei (FLIM - 
fluorescence lifetime imaging microscopy). Senzorul TR-CMOS poate fi imple- 
mentat relativ ieftin, intr-un sistem FLIM compact. Figurile 1. (a) si (b) prezinta o 
diagramă bloc a măsurătorilor timpului de viață a fluorescentei şi respectiv depen- 
denta numărului de fotoelectroni captati in fereastra de timp ca o funcţie de ¢, în 
senzorii CMOS, Atunci când un impuls foarte scurt de lumină (de obicei mai mic de 
100 ps) iradiază o probă fluorescentă, proba emite o fluorescență cu o scădere 
exponențială rapidă, de obicei intre o nanosecundă şi câteva zeci de nanosecunde. 


? Hidenori Mimura, Kazuhiko Hara, Shoji Kawahito, Toru Aoki, and Norihisa Hiromoto, Nanovision 
Science-Evolution of Imaging Technology, Corona Pub. Co. Ltd., (2009) in Japanese, PRAS 

> Zhuo Li, Shoji Kawahito, Keita Yasutomi, Kelichiro Kagawa, Juichiro Ukon, and Hirohiko Niioka, 
AT ime-Resolved CMOS Image Sensor With Draining-Only Modulation Pixels for Fluorescence 
Lifetime Imaging, IEEE Trans, Electron Devices, 59 (2012) 2715. l 

* Wataru Inami, Kentaro Nakajima, Atsuo Miyakawa, and Yoshimasa Kawata, Electron beam 
excitation assisted optical microscope with ultra-high resolution, Optics Express 18 (2010) 12897. | 
Wenjuan Zou, Takuya Nakashima, Yoshiaki Onishi, Akifumi Koike, Bunji Shinomiya, Hisashi 
Morii, Yoichiro Neo, Hidenori Mimura, and Toru Aoki, Atomie Number and Etectron Density 
Measurement Using a Conventional X-ray Tube and a CdTe Detector, Jpn, J. Appl. Phys. 47 (2008) 
7317, 

g Hidenori Mimura, 2009, Idem. 
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Descresterea intensității fimorescenţei 
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Fig. 1. (a) Diagramă bloc a măsurării timpului de viaţă a fluorescentei 
(b) dependența numărului de fotoelectroni captati în fereastra de timp 
ca funcţie de ty în dispozitivul pentru generare de imagini, CMOS 


Radiația de fluorescenta incidentă este captata de un fotodetector care 


generează fotoelectroni. Numărul de electroni generati pe unitatea de timp este 
exprimat ca; 


A(t) = Ny e-+] a) 


T 


a 


pentru 420, unde n, este numărul initi 


generarii fotoelectronului, iar Teste timpul de viață măsurat. Pentru măsurarea 
timpului de viaţă a fluorescentei, o parte a semnalului electronic de fluorescenta este 
detectat si colectat intr-o fereastra de timp. Fereastra de timp folosită la detectie este 
setata in functie de tensiunea de poartă Vp a fotodiodei. 


al de electroni, [—tyeste întârzierea 
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Fotoelectronii generati sunt acumulati de un colector electronic în fiecare 
perioada T a ferestrei de timp. Punctul de start al ferestrei de timp este întârziat 


folosind un generator de întârziere, iar electronii sunt colectati de la momentul i 
până la momentul 4, +7. 
Dacă 1, este ales cu valoarea zero pentru a simplifica, numărul de electroni 


colectati N (r ,) este exprimat ca: 


ta+T 
$ t 
N(t,)= | n(t)dt = mT, exp) -— | pentru (t; > 0) 
T 
ty a 
tg+T 
N(t,)= [n(Qdt=nyt, pentru (ta <0) (2) 
la 
p ' la +T Bee 
Dacă T este ales suficient de mare, valoarea exp| — este neglijabila. 
Ta 


Deoarece flourescenta unei probe biologice reale este foarte slabă, numărul 
mediu de fotoelectroni colectati pentru fiecare impuls de excitare este adesea mai mic 
decât 1. Pentru intensificarea semnalului, excitarea este repetată de multe ori, iar 
fotoelectronii sunt colectati în mod repetat în fiecare fereastră de timp (de aceeaşi 
durată). Numărul de electroni colectati descreşte exponential pentru început. urmat 
de un palier lung care este cauzat de fluctuațiile datorate zgomotului. Durata 
fluorescentei este obţinută din panta descreşterii exponentiale a numărului de 


D 


a 

Dr. Yoon din grupul Prof. Kawahito a propus un senzor de imagine TR-CMOS 
pentru măsurarea timpului de viață a fluorescentei pe o durată de ordinul 
nanosecundelor”. Acest senzor are o problemă legată de sensibilitatea variaţiei de la un 
pixel la altul în cazul unei iluminări foarte slabe. Pentru a rezolva această problemă, Dr. 
Li din acelaşi grup a propus un senzor de imagine TR-CMOS cu © structură a pixelului 
de tip DOM (,,draining-only modulation” — modulare prin drenare) . 

Figura 2 prezintă conceptul structurii DOM şi profilul ei de potențial. O poartă 
de scurgere a sarcinilor (TD gate) este ataşată pe langă canalul purtătorilor de la PPD — 
fotodioda PIN (PPD — aberviere de la ,,pinned photodiode”, unde PIN - abrevierea de la 
„positive intrinsic negative diode”, iar PD — abrevierea de la „photodiode”) la PSD dioda 
de stocare (PSD — abrevierea de la ,,pinned storage diode”), La inchiderea portii TD, 
sarcina este transferată către dioda PSD. La deschiderea porții, sarcinile din PPD sunt 
drenate înainte de a se deplasa către PSD. Operația de citire a semnalului de ieşire din 
PSD este realizată cu ajutorul porţii de transfer (TX gate), 


| : 3 1 
| electroni colectati, care este dată de — — 


Hyung-June Yoon, Shinya Itoh, and Shoji Kawahito, A CMOS Image Sensor with in-Pixel Two- 
Stage Charge Transfer for Fluorescence Lifetime Imaging, IEEE Transactions on Electron Devices, 
Vol, 56, Nr. 2, (Febr, 2009) 214-221. ais ae 5 

? Zhuo Li Shoji Kawahito, Keita Yasutomi, Keiichiro Kagawa, Juichiro Ukon, and Hirohiko Niioka, 
A Rime Resolved CMOS Image Sensor With Draining-Only Modulation Pixels for Fluorescence 
Lifetime Imaging, IEEE Trans. Electron Devices, 59 (2012) 2715. 
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Porţi închise 


apertura 


Fig. 2. Conceptul de realizare a structurii DOM şi profilul potențialului 


Figura 3 arată o imagine a intregului pixel DOM. Forma efectivă a PPD în 
display are câțiva paşi care cresc gradual lărgimea canalului din zona de deschidere către 
PSD în loc de a avea o variație continuă în Fig 2. Pixelul DOS utilizează o tehnologie de 
imagine CMOS standard cu optiune PPD. In condiţiile unui câmp electric slab într-o 
diodă PIN sărăcită, transferal purtătorilor de-a lungul a câtorva micrometri poate avea loc 
în câteva nanosecunde sau mai putin decat 1 ns. Acest timp de răspuns sub | ns este 
suficient pentru observarea fenomenelor rezolvate în timp cu o rezoluție mai mică decât 
1 ns. Pixelul efectiv constă dintr-un PPD, un PSD, o poarta TD, o poarta TX între PSD şi 
FD (FD — „floating diffusion”), difuzie flotantă, un transistor de reset, un repetor cu un 
comutator de selecţie a pixelului. Partea principală a pixelului este simetrică de-a lungul 
liniei A-A’, care conţine două căi de transfer de sarcină, şi poarta TD este situată lângă 
fiecare cale de transfer. Această structură simetrică permite ca aria fotosensibilă să fie 
crescută pentru creşterea sensibilităţii. 
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Fig. 3, Prezentarea structurii întregului pixel DOM 
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Figura 4 (a) and (b) reprezintă o secţiune transversală a pixelului și profilele 
de potential de-a lungul direcțiilor: PPD — PSD (X-X’) (a) şi respectiv PPD — drenă 
(Y-Y?) (b), pentru a explica mecanismul de modulare în sarcină a pixelului DOM. 

Când poarta TD este închisă, se creează un câmp electric lateral pozitiv 
monoton pentru transfer de sarcină la viteză înaltă din PPD la PSD aşa cum se 
observă în curba punctată din figura 4 (c) care arată funcţionarea pentru modularea 
sarcinii foto generate. Când poarta TD este deschisă, o scădere de potenţial se 
produce în calea de transfer a purtătorilor, aşa cum se observă în curba solidă 
(continuă) din fig. 4d. Purtătorii care cad in această groapă de potential sunt drenati 
prin poarta TD. Operatia de citire a electronilor generati de fluorescent este ilustrată 
în fig. 4e. După detectarea repetată a semnalului din fereastră, semnalul stocat în 
PSD este citit utilizând o operaţie de dublă eşantionare corelată (CDS - correlated 
double sampling). Pentru aceasta, mai întâi se resetează FD, şi apoi sarcina din PSD 
este transferată la FD prin procesul de citire, în timp ce TD este întotdeauna deschisă 
pentru drenarea electronilor de întuneric în PPD. 


Scut lumina 


lumina Scut lumina 


Fig. 4. Secţiune transversală a „pixelului” şi profilele de potential de-a lungul direcțiilor: 
PPD — PSD (X-X’) (a) şi PPD - drena (Y-Y’) (b)(c) şi (d) arată funcționarea pentru 
modularea sarcinii foto generate (e) arată semnalul de citire secvengiala in pixelul DOM 


Un semnal de fluorescent dintr-o fereastră de timp, poate fi detectat astfel: in 
timpul excitaţiei cu impulsul de lumină, poarta TD este deschisă pentru a drena 
sarcinile nedorite generate direct de pulsul de lumina incidentă. Ca urmare se emite 
radiație de fluorescent care descrește exponential şi care generează sarcini-semnal. 
Poarta TD rămâne deschisă până la începutul ferestrei de timp. In timpul ferestrei de 
timp, de la tai la ty+T, poarta TD este închisă. Ca urmare, o parte din semnalul 
descrescător generat în PPD este transferat în PSD, Procesul este repetat de multe ori 
utilizând ferestre de timp cu aceeași întârziere faţă de pulsul de lumină excitatoare 
pentru a intensifica slabul semnal de fluorescen{a. 
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Pentru a detecta electronii semnal într-o altă fereastră de timp, se utilizează o 
altă întârziere temporală ty arătată în Fig. la şi 1b. 
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Fig. 5. Microfotografie a chip-ului senzorului de imagine cu pixeli DOM 


Figura 5 prezinta o microfotografie a chip-ului senzorului de imagine cu 
pixeli DOM, care este implementat folosind o tehnologie CMOS de 0.18 pm pentru 
senzorul de imagine cu opţiune PPD. Matricea de pixeli este formată din 256 (rând) 
x 256 (coloana) pixeli şi dimensiunea pixelului este de 7.5 x 7.5 um’. Figura 6 
prezintă un aranjament experimental pentru măsurarea timpului de viata al 
fluorescentei. Sistemul de creere a imaginilor TR-COMS (imager time-resolved 
CMOS) cu pixeli DOM, un convertor analogic digital (ADC), o matrice de porți 
programabile (FPGA), precum şi un chipset de interfață cu camera, sunt 
implementate pe o placă de circuit imprimat (PCB). Semnalul de control pentru 
lumina de excitație este sincronizat cu semnalul de poartă TD din senzor. Lumina de 
excitație iradiază un eşantion (o proba) şi este emisă fluorescenta. Atât lumina de 
excitație cât şi lumina fluorescentă sunt reflectate către senzor de către o oglindă. 
Lumina de excitație este filtrată de un filtru optic trece-bandă. Numai lumina 
fluorescentă poate trece prin filtru spectral trece-bandă şi este focalizată pe senzorul 
de imagine printr-o lentilă. Senzorul de imagine detectează lumina fluorescentă. 
Fereastra timpului de detecție (v. Fig. 1)., este setată la 125 ns. leşirea semnalului 
analogic al senzorului este conectată la un ADC („analog-to-digital converter”) 
pentru fi convertită într-un cod digital de 14b. Un FPGA este folosit pentru generarea 
semnalelor digitale, pentru controlul senzorului şi receptionarea codului digital de la 
ADC, Un protocol de conexiune cu camera (camera-link) este folosit pentru 4 
transmite codul digital de la FPGA la un calculator. După prelucrarea datelor, 
imaginea este afișată pe un monitor, iar datele sunt stocate în calculator. Tabelul | 
prezintă sinteza performanţei prototipului chip-ului senzorului. 
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Amplificarea la conversie 30puV/e | 
(Conversion Gain) 
Capacitatea PSD 3800e“ 
(PSD Full Well Capacity) 
Raportul de extinctie) 30 : 1 (@440nm) 


(Extinction Ratio) 
Raportul de ear a semnalului 1€” per 546 TD implulsuri 
intunecat | 
(Dark Signal Generation Ratio) | 
Zgomot temporal 
(Temporal Noise @ 300K) 


17.2%™m (@CDS Gain 1.07x) | 
2.0 ej, (@ CDS Gain 30 x) 


Durata de viata intrinseca 
(Intrinsic Lifetime) 2ns 


Tabelul 1. Prezentarea performanțelor prototipului chip-ului senzor 


Eel | ‘(Camera tn) 
|] i 
Eo 


~ fTime- Resolved]: i 
„7 [CMOS Imager 


1 Lens Evaluation PCB 
Optical 
Band Pass 
Filter 


Fig. 6. Structura experimentală a măsurătorilor pentru timpul de viață 
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R 

BAS 430nm 
GAS  500nm 
OAS  555nm 


- GOD 525nm 


Timp (ns) 
Fig.7. Măsurarea timpului de viaţă pentru răspunsul intrinsic al senzorului (curbele de 
descreştere a intensității semnalului pentru emisia fluorescentă) - patru tipuri de fluorofori. 


Figura 7 reprezintă curbele de descreştere a intensității semnalului pentru 
emisia luminii de fluorescenta pentru patru tipuri de fluorofori şi răspunsul intrinsic 
al acestui sistem de imagistică rezolvată temporal (time-resolved imager). 
Abrevierile sunt: SI-Signal Intensity (Normalized) — Intesitatea semnalului 
(normalizat); IR-Intrinsic Response răspuns intrinsec; BAS-Blue Acrylic Screen, 
ecran acrilic albastru; GAS-Green Acrylic Screen - ecran acrilic verde; OAS-Orange 
Acrylic Screen, ecran acrilic portocaliu; GQD-Green Quantum Dot. Se utilizează 
pentru toate măsurătorile o diodă laser cu radiaţie ultravioletă cu o lumgime de undă 
de 374 nm şi un puls de 80ps. Pixelul DOM cu un timp de transfer de sarcină finit, 
are timpul de viata intrinsec Tọ, care este determinat de dispersia spotului de lumină 


pe fotodiodă şi de dispersia timpului de transfer. În măsurarea timpului de viata 
intrinsic, lumina de excitare este direcţionată pe chip-ul senzorului. 


3. Microscopul optic asistat cu excitare cu fascicul de electroni 


Achiziţionarea de imagini pentru eşantioane (probe) în domeniul nanometric de 
analizat (NV) este necesară în numeroase aplicaţii. Procesarea acestor imagini de mare Te- 
zolutie ale unor probe biologice este esenţială pentru înțelegerea cât mai exactă a funcțiilor 
celulare, Multe structuri au dimensiuni prea reduse pentru a putea fi studiate folosind mi- 
croscoape optice standard, cu o rezoluție insuficientă, datorată limitei de difracție a luminii. 

În aceste cazuri se apelează la microscopia electronică de mare rezoluție, la nivel 
de nanometru. Totuşi, în special în cazul vizualizării probelor biologice, sunt necesare pre- 
parative preliminare ale eșantioanelor cum ar fi confecționarea de eşantioane foarte subțiri, 
acoperirea cu folii metalice speciale, ori răcirea sau înghețarea” eşantioanelor. Asemenea 
operaţii pregătitoare afectează studiul celulelor vii, influențând starea lor naturală. 

| Dr, Inami, din grupul de cercetători condus de Prof. Kawata, a propus un 
microscop optic asistat de o metodă de excitare cu fascicul de electroni — „the 
electron beam excitation assisted optical (EXA) microscope”). r 
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Figura 8(a) ilustrează schema EXA propusă de Dr. Inami. Un fascicul de 
electroni este focalizat pe un film luminescent (nitrură de siliciu SiN). Eşantionul 
este plasat apoi direct pe peliculă. În figură sunt arătate imaginea mărită a filmului si 
a eşantionului. Sursa de iluminare nanometrică este excitată în filmul luminescent de 
către fasciculul de electroni focalizat. Sursa de lumină nanometrică iluminează eşan- 
tionul iar lumina împrăştiată sau transmisă este detectată de un fotomultiplicator 
(PMT). Pentru a obține un contrast corespunzător al imaginii, sursa de lumina este 
scanată prin scanarea cu fasciculul de electroni focalizat. 

O structură de suport de eşantion este ilustrată în Fig. 8(b). O fantă pătrată de 
100 x 100 um? a fost confecţionată pe substratul de siliciu şi fixată (acoperită) cu un 
film SiN de grosime 50 nm. Focalizând fasciculul de electroni se limitează mărimea 
spotului optic ceea ce înlocuieşte confecționarea fantelor de deschidere mică, cum 
este cazul în microscopia optică tradițională în câmp apropiat (NSOM). 


Ls - lens (obiectiv) 
e.g - electron gun (tun de electroni) 

e.b - electron beam (fascicul de electroni) 
m.l - magnetic lens (obiectiv magnetic) 
s.b - scan coil (...) 

FI - luminiscent film (film luminescent) 
Sp - Specimen 

Ob - objective 

Nls — nanometric light source (sursa de 


grosime 
50nm 


lumina nanometrica) 
FI- luminiscent film (film luminescent) 
Fe.b-focused electron beam (fascicul de 


electroni); Op.mic-optical microscope 


(microscop optic) 


Fig. 8. Schema microscopului EXA (a) şi 
(b) structura unei membrane pe bază de nitrură de siliciu 
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ometri este produs uşor de un fascicul de 


electroni focalizat pe o suprafață de câţiva nanometri. Prin captarea a și 
microscopice în secvenţe de frecvență video sau mal mare, pot fi observate, activi A 
în desfăşurare ale eşantioanelor biologice vii, deoarece fasciculul de electroni poate fi 
scanat prin modularea câmpului electric sau magnetic fără a fi necesare componente 
mecanice în mişcare. Un raport semnal util/zgomot foarte bun se poate obține 
utilizând pelicule luminescente eficiente la iradierea cu fascicul. Un alt avantaj 
special al microscopului EXA constă în posibilitatea observării ŞI captării imaginilor 
eşantioanelor aflate în diverse medii: aer, gaze, lichid sau vid. F ilmul luminescent 
separă aerul sau lichidele din jurul eşantionului de vidul unde este focalizat fasciculul 
de electroni. Din moment ce energia fasciculului este convertita in lumina pe pelicula 
luminescenta, iar lumina transmisă şi reflectată de eşantion este captată ca semnal, nu 
este necesară plasarea eşantioanelor în vid. Pentru a proba potenţialul metodei 
propuse, în cazul celulelor vii, au fost vizualizate microorganisme MARCO, cu 
celule CHO, care au fost crescute direct pe pelicula de nitrura de siliciu. Figura 9(a) 
ilustrează un recipient de cultură, cu soluție, pentru studiu. După incubare eşantionul 
a fost depus pe dispozitivul de vizualizare al microscopului EXA şi analizat. Figurile 
9(b) si 9(c) ilustrează imagini de luminescenţă a cellelor cu microscopul EXA, 
respectiv imaginea microscopului cu contrast de fază. Eşantioanele au fost observate 
în solutia de cultură fără nici un fel de alte tratamente, cum ar fi fixarea şi uscarea. 
Forma fiecărei celule este clar recunoscută fiind observate şi unele spoturi luminoase 
în structura lor, Petele luminoase indicate cu săgeți se datorează probabil auto- 
fluorescentei granulelor intracelulare iar spoturile luminoase gri se datorează 
autofluorescentei membranelor celulare. 


Un spot optic de câteva zeci de nan 


9,,„Intracellulaf 
oo ul 


Fig, 9, Probă cu soluţie de cultură (a), imagine captată cu microsc 
celulelor vii MARCO exprimând celule CHO (b) şi imagini de 
Jază ale celulelor vii, j 


op EXA prin luminescenta 
microscopie cu contrast de 
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4. Senzor de imagine CdTe cu raze X, pentru identificarea 
numărului atomic şi a densităţii de electroni” 


Sistemele de detecție a explozibililor sunt importante în domeniul comuni- 
cațiilor şi al transportului. 

Până în prezent, s-a aplicat pe scară largă tehnica bazată pe dispozitive care 
funcționează cu un singur tip de energie. Dar pe baza acestei tehnici se pot efectua 
doar măsurători aproximative ale densităţii obiectelor scanate. Pentru identificarea 
| materialului, o tehnică cu două tipuri de energie este o alternativă atractivă. Metoda 
| tomografiei computerizate (CT) cu două energii, cu raze X, este o tehnică perfor- 
| mantă pentru [o Enuuiicarca atât a numărului atomic cât şi a densităţii de electroni a 
unui obiect scanat `, care aplică tehnica cu două energii. Pentru a folosi aceasta 
tehnică, trebuie să se cunoască valorile coeficienţilor de atenuare liniară la interactiu- 
nea obiectului cu razele X incidente, corespunzători la două energii diferite. Experi- 
mental, aceşti coeficienți pot fi masurati numai în cazul in care radiaţia incidentă şi 
radiația detectată, sunt monocromatice şi au aceeaşi energie. Pentru a obține această 
condiție experimentală „ideală”, unele grupuri au folosit fascicule de raze X emise de 
accelerator cu putere foarte mare care să penetreze prin monocromatoare. Pentru a 
aplica tehnica cu energie dublă la identificarea materialului, Dr. Zou din grupul 
condus de Prof. Aoki şi Prof. Mimura a propus un nou sistem de scanare tomografică 
computerizată folosind un tub de raze X conventional şi un detector de CdTe pentru 
numărarea fotonilor". 

Razele X pot penetra materialul si pot interactiona cu toate speciile atomice. 
Atunci când un fasciculul de raze X ,,moale” cu o energie mai mică de 200 keV trece 
printr-un obiect, atenuarea intensității radiaţiei X poate fi atribuită împrăştierii 
coerente, împrăştierii necoerente şi absorbției fotoelectrice. Deoarece procesul de 
atenuare depinde de proprietăţile materialului, şi anume de numărul atomic Z şi de 


densitatea de electroni p,, coeficientul de atenuare liniară — care este o mărime 


fizică importantă pentru descrierea acestui proces — poate fi reprezentat ca o funcție 
de numărul atomic şi de densitatea de electroni. Coeficientul de atenuare liniară al 
| materialului pentru un fascicul de raze X cu energia E este scris ca: 


WE, Z, p,) = pilo” (E,Z) +0" (EZ) +o" (EZ) (1) 


| Această formulă oferă o precizie mai mare pentru a descriere variația fiecărui 
proces de atenuare pentru o energie cu valori cuprinse în intervalul 30-150 keV şi 


coh incoh 


; y , ae RQ Ajai ferment ph 
pentru materiale cu număr atomic mai mic de 50, Aici, termeni 0 , O 0 


Wenjuan Zou, Takuya Nakashima, Yoshiaki Onishi, Akifumi Koike, Bunji Shinomiya, Hisashi 
Morii, Yoichiro Neo, Hidenori Mimura, and Toru Aoki, Atomic Number and Electron Density 
Measurement Using a Conventional X-ray Tube and a CdTe Detector, Jpn. J. Appl. Phys. 47 (2008) 
71317. 

10 Yumiko Ohno, Masami Torikoshi, Takanori Tsunoo, and Kazuyuki Hyodo, Dual-energy X-ray CT 


with CdTe Array and its extension, Nuclear Instruments and Methods in Physics Research Section 
A548, pp 72-77, (2004) 
Wenjuan Zou, 2008, Idem. 
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determinate de împrăştierea coerentă, 


sunt secțiunile eficace ale electronilor, idile 
sorbtia fotoelectrică. Simplificată, această 


împrăştierea necoerentă şi respectiv de ab 
formulă este următoarea: 
u(E,Z, p.) = p.AZ'F(E, Z) + G(E,Z)] (2) 
În ecuația (2), cei doi termeni din partea dreaptă, sunt determinaţi de efectul 
fotoelectric şi de împrăştiere. Funcțiile F(E, Z) şi G(E, Z) pot fi determinate prin 
compararea ec. (2) cu ec. (1). Din ec. (2), dacă se măsoară coeficienţii de atenuare 
liniară a materialului pentru două valori distincte ale energiei, obținem: 


4 _ (EGE, Z) = HE GE Z) 6) 
u(E)G(E,, Z) - ME, )G(E,,Z) 

Deşi o expresie analitică pentru numărul atomic nu poate fi dedusă direct din 
această ecuaţie, soluția numerică pot fi obținută folosind un algoritm iterativ. Odată 
ce numărul atomic este cunoscut, densitatea de electroni poate fi, de asemenea, 
determinată din următoarea ecuaţie: 


__ ME )EE,,Z)= MEF.) a 
e F(E,,Z)G(E,,Z) EZE, Z) 


Dioda cu CdTe a fost fabricată folosind o metodă de dopare cu laser cu 
eximer!?. Figura 10 arată o instalație de dopare cu laser cu excimer. Un strat subțire 
de indiu cu o grosime de 30nm a fost depus pe o suprafață de CdTe (pe faţa cu Te) 
într-un sistem convenţional de evaporare în vid fără încălzirea substratului. 


KIF Laser Excimer 
248nm. 
20ns/puls. 


Fig.10. Instalaţie de dopare cu laser cu excimer, Ce Colimator cilindric; Lbh omogenizator 
pentru fascicul laser; lentile pentru imagine Il; cuarț Q; cameră C; eşantion S; Oglindă M. 


Am folosit un laser excimer KrF cu o lungime de undă de 248 nm, un impuls 
de lăţime de 20nm și o putere de 75mJ/em’, Pulsul laser a fost introdus şi direcționat 
pe suprafaţa de indiu a egantionului într-o cameră de înaltă presiune cu o atmosferă 


12 p i i A 
m iw hits D, eal V. Gnatyuk, A, Nakamura, Y. Tomita, Y. Hatanaka, and J. 

n yo, Development of Energy-Diseriminate CdTe sina Detector for SE rai 
SPIE $440 (2004) 196, 1ergy-Diseriminate CdTe Imaging Detector for Hard X-ray, Proc. 


108 


Dispozitive imagistice dezvoltate de Centrul de Excelenţă Secolul 21 


de 0.3 MPa cu argon, printr-o lentilă de cuarț. Un strat de CdTe de tip n, a fost 
obținut printr-un proces de difuzie termică. Apoi, s-a depus electrodul de Indiu de pe 
suprafața dopată şi electrodul din aur a fost depus pe partea opusă. Figura 11 prezintă 
o caracteristică tipică curent-tensiune a unei diode CdTe la temperatura camerei. 
Mărimea dispozitivului e de 5mm x 5mm x 0.5mm. Curentul invers este mai mic 
decât câțiva nA pentru o tensiune aplicată de 100V. 


-100 -80 -60 -40 -20 oO 20 


Fig. 11. Caracteristica curent-tensiune a diodei CdTe la temperatura camerei 
I-curentul (A-Amper ); U-tensiunea(V-volti) 


AR cli comparator fumarator 


Readout logic 
Signal processing board 


eS Le | 


a ee  eiehiheeiisiisnl 


CdTe ar ASIC 


Fig.12, Diagrama detectorului CdTe - schema pentru numărarea fotonilor 


Figura 12 prezintă o diagramă a unui detector de CdTe pentru numărarea 
fotonilor folosind o diodă CdTe, S-a folosit un senzor de imagine linear’ CdTe cu 
raze X care este format din 64 de elemente cu dimensiunile: 0.8mm lățime, 0,5mm 
înălțime și 2mm adâncime”. Toate elementele din CdTe au fost aliniate una lângă 
alta, la distanță de 0,1 mm, gi funcţionează ca o matrice de detectare a radiaţiilor. 
Odată ce un foton de radiaţie X este absorbit de către un element CdTe, este generată 


3 Wenjuan Zou, 2008, Idem. 


109 


HIDENORI MIMURA 


o sarcină electrică datorită efectului fotoelectric intern. Sarcina electrică generată este 
amplificată de către un amplificator şi transformată într-un puls electric cu înălțimea 
proporțională cu energia fotonului incident. Pulsurile rezultate sunt comparate cu 
cinci tensiuni de prag, pe baza amplitudinilor lor şi apoi sunt diferenţiate şi numărate 
de către contoarele relative. Prin măsurarea spectrului radiaţiei a trei radioizotopi 
diferiți (Co, "Am, şi Cs), care au valori cunoscute ale energiei peak-lui principal 
din spectrele lor, se poate determina o relație liniară între înălțimea pulsului de 
tensiune şi energia fotonului incident!*. Prin urmare, prin stabilirea tensiunilor de 
prag corespunzătoare înainte de experiment, poate fi înregistrat numărul de fotoni 


detectati în acelaşi interval de timp şi care aparțin aceluiaşi interval de energie fixat. 


Scut 
de 
plumb 


| detector 

de 

| numarare 
a fotonilor 

de tip 

CdTe 

(64 ch) 


Fig. 13. Experiment de măsurare a numărului atomic şi a densităţii electronice 


Figura 13 prezintă un sistem experimental pentru determinarea numărului 
atomic şi măsurarea densităţii de electroni. Acest sistem a fost plasat într-un ecran de 
plumb şi echipat cu un tub de raze X conventional, un manipulator XYQ un coli- 
mator, detectorul de CdTe pentru numărarea fotonilor, şi un calculator. Colimatorul a 
fost făcut dintr-o placă de molibden cu o grosime de 2.0 mm cu 64 de găuri de 
diametru de 0,6 mm aliniate una lângă alta, la distanţe egale de 1,0 mm. Colimatorul 
are două funcții importante. Prima este aceea de colimare a fasciculului de raze X 
pentru a restrânge măsurarea transmisiei la o ,,felie” cu o grosime de câţiva milimetri. 
A doua functie importantă constă în reducerea unghiului de împrăştiere a radiaţiei la 
câteva grade, scăzând astfel efectul împrăştierii, 


14 ro Tomi u Ghj i Eyi 
Yasuhiro Tomita, Yuji Shirayanagi, Masaki Misawa, Tooru Aoki, and Yoshinori Hatanaka, X-ray 
Color Scanner with Multiple Energy Discrimination Capability, Proc. SPIE 5922 (2005) 59220A. 
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Deoarece detectorul operează în modul de numărare a fotonilor, se obține 
diferența energiei în câmpul de raze X detectat. Tensiunea şi curentul tubului de raze 
X au fost stabilite la 140 keV, respectiv la 10/44. Deoarece rezoluţia energiei 
detectorului de CdTe este de aproximativ 10 keV, la 122 keV, lărgimea fiecărei benzi 
de energie a fost fixată la 20 keV. Pentru a reduce zgomotul, cea mai mică valoare a 
tensiunii de prag a fost aleasă cea corespunzătoare fotonilor radiaţiei X cu energia de 
S0eV. Pentru alte trei tensiuni de prag, acestea au fost setate astfel încât să 
corespundă valorilor energiei de 70, 120 şi 140 keV. Astfel, datele măsurate în două 
intervale energetice, 50-70 şi 120-140keV pot fi folosite pentru reconstrucție. Pentru 
© evaluare cantitativă a numărului atomic şi a densităţii de electroni au fost efectuate 
măsurători pe diverse probe. Deoarece dinamica numărului atomic şi densitatea de 
electroni necesare pentru un scaner CT variază de la aer la obiectele din metal, am 
luat ca probe materiale elementale de puritate mare (C, Mg, Al şi Ti). Datele de 
proiecție pot fi reconstruite pentru a da o distribuţie a coeficientului de atenuare 
liniară utilizând tehnica de reconstrucție CT. Am folosit ca filtru algoritmul de 
proiecție invers pentru procesul de reconstrucție. Deoarece acest proces este doar o 


of eratie matematică, valoarea reconstruită Her nu reprezintă coeficientul de atenuare 
liniară absolut. 


ü LE Up; HE z Pe (1025 ca) 


Ti 
15mm 
bmm 
Jmm 


Fig, 14, Imaginile distribuţiei bazate pe plop a două benzi energetice diferite (atât la 
energie scăzută cât şi la energie înaltă), numărul atomic dedus şi densitatea de electroni 
pentru probe de C, Mg, Al si Ti cu diametre diferite 


Teoretic, coeficientul de atenuare liniară ar trebui să aibă o relație liniară cu 
Hcr corespunzător, Figura 14 prezintă imagini ale distribuției bazate pe icr pentru 
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două benzi de energie diferite, numărul atomic dedus și densitatea de electroni a 
probelor de C, Mg, Al şi Ti. Cu scopul de a testa efectele cauzate de adâncimea de 
penetrare cu raze X, fiecare măsurătoare a fost efectuată pentru trei probe compuse 
din acelaşi element, dar cu diametre diferite. 

Tabelul 2 arată datele experimentale citite din figura 14 pentru fiecare 
material elemental cu diametre diferite. Sunt prezentate gi rezultatele teoretice pentru 
densitatea de electroni pentru fiecare element. Pentru materialele cu număr atomic Z 
mic, Tabelul 2 demonstrază că separarea materialului poate fi obținută plecând de la 
imaginile distribuţiei numărului atomic şi a densităţii de electroni. 

Diferența dintre numerele atomice măsurate şi valorile teoretice are valori 
întotdeauna mai mici decât 1. 


| (es? — oP yor| 
(%) 


„0.106 6.5320.03 5.8920.01 


0.127 0.116%0.001 | 6.42=0.05 6.2120,05 


0.12720.001 6.0820.04 6.25£0.03 


0.115%0.001 


0.108 


11.2720.03 5.7420.02 


0.106£0.002 


11,.5720.08 5.6040.01 


0.10440,001 | 11.95-70.0€ 


54240.02 


0.170 12.390.041 


8.830,01 


0,299 0.16920.001 | 12.5620,02 


3.4 $8120.01 129 


0,288£0.001 | 0.155£0,003 | 12.7140.1€ 


2:2 $1020.04 3.8 


1,122%0.002 | 0.387£0.002 18.320.2 16.8 17.5%0,3 40 | 
1,144£0,006 | 0.38840.005 18.570.2 15.9 16.7£0.2 = | 
1.216£0.020 | 0.35920.014 20.620.2 6.4 16.020,3 | 28 


Tabelul 2. Datele experimentale ataşate figurii 14, pentru fiecare material elemental - probe 
cu diverse diametre, Sunt notate şi rezulatele teoretice ale densităţii de electroni pentru 
fiecare element. 


Concluzii 


Capitolul descrie un număr de dispozitive în domeniul nanovision (NV) 
dezvoltate de grupul de excelență COE al Universităţii Shizuoka, Japonia, printre 
care; un senzor de imagine CMOS cu rezolvare temporală, (TR-CMOS, time- 
resolved CMOS image sensor), pentru imagistica de fluorescent’ rezolvată temporal 
(T D-FLI, time-domain fluorescence lifetime imaging), un microscop optic asistat 
prin excitație cu un fascicul de electroni şi un senzor de imagine în domeniul razelor 
X cu Cd! e, capabil de a identifica numărul atomic şi densitatea de electroni. 

A fost implementat prototipul senzorului de imagine CMOS utilizând pixeli 
DOM. S-a reușit măsurarea timpului de dispariţie a fluorescentei cu o rezoluție de 
ordinul sub-nanosecondelor, Senzorul prototip este util pentru realizarea unei camere 
video compacte cu costuri reduse, pentru imagini microscopice prin măsurarea timpului 
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de scădere a fluorescenţei FLIM utilizabilă în măsurători biologice. Microscopia optică 


; : ; un nou tip de microscopie 
optică în câmp apropiat, Imaginea luminescentei celulelor vii în soluția de cultură a fost 


obținută fără limita difracției luminii, Microscopul EXA este un instrument util pentru 


raze X şi energie dublă, adoptată. Prin Compararea rezultatelor obţinute cu cele 
teoretice, s-a demonstrat fezabilitatea. utilizării acestui sistem pentru identificarea 
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Stabilirea corespondentelor între pixeli 
în stereoviziunea binoculară 


ALAIN CROUZIL', GUILLAUME GALES, SYLVIE CHAMBON 


ABSTRACT. Stereo matching is one of the main topics in computer vision. This is 
an essential step for 3D reconstruction by binocular stereo vision. It consists in 
finding in two images of a same scene, taken from different viewpoints, the pairs of 
pixels which are the projections of a same scene point. Since the last twenty years, 
many local and global methods have been proposed to solve this problem. More 
recently, region-based methods showed interesting result in small-baseline binocular 
stereo (where images are taken nearby). This chapter describes the main approaches 
of stereo matching. A first part presents the local methods that search for 
correspondents of each pixel independently assuming that the neighbors of two 
corresponding pixels are similar. The next part describes a specific local method 
based on seed propagation, i.e. which is based on an initial set of reliable 
correspondences, reducing the size of the search area for matching their neighbors. 
Then, another part deals with the global methods that search the correspondent of all 
the pixels by minimizing a global error over the whole image. Finally, the last part 
describes the methods that rely on a segmentation of images giving regions for 
which the parameters of a surface model are estimated. 


KEYWORDS: stereo matching, binocular stereo vision,  small-baseline, 
segmentation, disparity map. 


1. Introducere 


j In încercarea de a reproduce functionalitatile percepției vizuale umane, 
domeniul viziunii computerizate a condus la noi tematici de cercetare. S-au realizat 
sisteme automate care, pornind de la una sau mai multe imagini, percep sau măsoară 
relieful sau mişcarea, recunosc obiecte, scene, situaţii. Aceste lucrări contribuie la 
interpretarea scenei pentru a regăsi, a localiza, identifica şi caracteriza ceea ce se află 
sau ceea ce se întâmplă în cadrul scenei fotografiate sau filmate. 


Profesorul Alain Crouzil — IRIT, Institutul de Cercetări în Informatică din Toulouse, cadru didactic 
la Universitatea Paul Sabatier, Toulouse, Franţa, co-autor a acestui capitol, colaborare dezvoltată în 
stagiul post-doctoral efectuat de Mihaela Costin în cadrul proiectului POSDRU 56815, „Societatea 
bazată pe cunoaştere, cercetări, dezbateri, perspective”, la IRIT, Toulouse, Franţa. C apitolul 
reprezintă o primă publicare gi traducere a părţilor comune, nepublicate, din tezele şi rapoartele de 
cercetare conduse de DI, Prof. Alain Crouzil. i dă, 
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1.1 Două camere de luat vederi pentru percepţia reliefului 


h Prin analogie cu sistemul vizual uman, stereoviziunea binoculară utilizează o 

pereche de imagini ale aceleiaşi scene captate din poziţii diferite. Cele două camere 
del uat vederi se bazează pe principiul vederii binoculare umane care captează razele 
“luminoase ce provin de la scenă, iar poziţia diferită permite perceperea adâncimii. 
tmii de stereoviziune binoculară au ca obiectiv să calculeze poziţia în cadrul 
i, şi în particular, profunzimea elementelor conţinute în cele două imagini. 
seori, aceste elemente sunt puncte, dar unele lucrări, în particular cele din 
robotică, iau în considerare în aceeaşi măsură şi segmentele de dreaptă. 

_ In general, sunt necesare patru etape mari pentru a extrage informaţia de 

'zime prin intermediul stereoviziunii binoculare: 

ziția imaginilor — cele două imagini ale aceleiaşi scene sunt captate în acelaşi 

timp de două camere de luat vederi diferite sau, în cazul unei scene fixe, poate fi 

ilizată o singură cameră care achiziționează cele 2 imagini din poziţie diferită. 

= Calibrarea sistemului de captare a imaginilor — această etapă constă în 

„determinarea parametrilor interni şi externi ai modelului geometric al sistemului 

de captare a imaginilor (conform Fig. 1). În marea majoritate a cazurilor, se 

adoptă modelul camerei pinhole pentru care formarea geometrică a imaginilor 
constă într-o proiecție în perspectivă. Numeroase lucrări au avut ca subiect 

calibrarea, ca de exemplu [Bocquillon, 2008]?. 

e Stabilirea corespondentelor între pixeli — se referă la regăsirea în cele două 
imagini a perechilor de pixeli ce corespund proiecției aceluiaşi element din scenă 
(conform Fig. 1). 

e Reconstrucția 3D — constă în calcularea pentru fiecare pixel a poziției în spațiu a 
punctului care este proiectat pe acel pixel. Această etapă, denumită triangu- 
larizatie, necesită cunoaşterea corespondentelor rezultate de la etapa precedentă. 


ERS 


T 


Imagine - dreapta 


Imagine - stânga 


Fig, 1, Modelul geometric al sistemului de captare stereoscopică binoculară 


Acest capitol vizează etapa de punere în corespondenţă a pixelilor în cazul 
stereoviziunii pentru care distanța între centrele celor două camere este mică (small- 


? Bocquillon, Benoît, „Contributions à l'autocalibrage des caméras: modélisations et solutions 
2 > . . Ei n 
garanties par l'analyse d'intervalle”, teză de doctorat, Universitatea din Toulouse, Oct. 2008. 
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baseline). În figura | este prezentat modelul geometrie al sistemului de captura 
stereoscopic’ binocular’, în care pixelii notati cup şi p corespund unul cu celălalt 
pentru că sunt proiecţiile aceluiaşi punct P din scenă pe imaginile din stânga şi din 
dreapta. Reperele (0°, xy 2) şi (0%, x,y 2°) sunt reperele camerei de luat vederi 
din stânga şi, respectiv, din dreapta. Reperul (0, X, Y, Z) este reperul scenei. 


x 


` ew Net (at it 
Reperele imaginilor sunt notate cu (ot 7) şi (0%, EJ). 
1.2 Stabilirea corespondenţelor între pixeli 


Obiectivul punerii în corespondență a pixelilor în cazul stereoviziunii 
binoculare constă în regăsirea în cele două imagini a perechilor de pixeli care 
corespund proiecției unei singure entități din scenă. Este vorba despre o problemă 
care a făcut obiectul a numeroase lucrări de cercetare deoarece ea prezintă mai multe 
dificultăţi pe care le vom detalia în cele ce urmează, spre deosebire de etapa de 
calibrare, pentru care există posibilitatea de a pune în practică metode precise şi 
eficace. În ciuda eforturilor cercetătorilor, abordările propuse încearcă doar să 
depăşească anumite dificultăți, dar nu ajung să rezolve simultan toate problemele. De 
cele mai multe ori este necesar să se recurgă la un compromis. 


1.3 Câteva dificultăți 


Metodele de punere în corespondență a pixelilor se bazează în general pe 
următoarea ipoteză: vecinatatile a doi pixeli corespondenţi se aseamănă. Principalele 
dificultăți întâmpinate în timpul punerii în corespondenţă au în esenţă două raţiuni: 

e Informaţii care lipsesc — informaţiile care ar permite realizarea unei puneri în 

corespondenţă de manieră sigură nu sunt prezente în imagine. Este deci dificil de 

a stabili corespondențe fără o caracteristică discriminantă complementară. De 
exemplu: 

o Zonele ascunse — se refera la zonele în care elementele scenei vizibile într-o 

imagine nu apar şi în cealaltă imagine deoarece, văzute sub un alt unghi, 

aceste elemente sunt ascunse de alte elemente din imagine (conform Fig. 2). 

o Zonele de discontinuitate a profunzimii — se referă la zonele situate la 
marginea unor obiecte situate la profunzimi diferite. Ceea ce se poate traduce 
prin vecinătăți ale pixelilor corespondenți care nu se aseamănă în mod 
necesar (conform Fig. 3). 

Zonele de tăiere — puncte diferite din scenă s i ă î i i pixeli 
adiere p cte difei ite din scenă se proiectează în mai multi pixeli 
SI d aene; sa numa! intr-un singur pixel din cealaltă imagine. Aceasta 
> poate întâmpla atunci câ a din suprafetele di ă Ă 
dictat ample ici când una din suprafeţele din scenă este foarte 
nelinată faţă de planul imaginii. 
+ Informații ambigue — informaţi i 
informaţia este : i dacă es x An i . 
iy a a a aţa este ambiguă dacă este prezentă în imagine dar 
pe e ca să se distingă pixelii corespondenți à 
o Zone omogene — pixelii unei ; . 
2 el zone Ne se aseamănă s +o 
unei imagini zgomotoase. În c nis indi et Dante ARIS E 
A ini zgomotoase. onsecin{a, este foarte dificil de fic `ctinctie 
intre aceştia (conform Fig, 4), arte CIN de facut oi aa 
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o Zone de textură regulată — există o ambiguitate dacă un model se repetă 
identic (conform Fig. 5). 


Imagine - stânga Imagine - dreapta 


Fig. 2. Zone ascunse — pixelul marcat cu un punct alb are corespondentul ascuns în imaginea 
SAT din dreapta 


ra 1.4 Cai de abordare 


Metodele de punere in corespondenta a pixelilor se pot împărți in două 
grupe. Prima grupă este cea a metodelor globale care iau în considerare totalitatea 
imaginii şi încearcă să minimizeze o funcţie de cost care exprimă erorile de punere în 
corespondență. Cea de-a doua grupă este cea a metodelor locale în care perechile de 
pixeli corespondenţi sunt găsite prin măsurarea similaritatii vecinatatilor lor. 


| Corespondentul fiecărui pixel este căutat dintr-o serie de candidați situați într-o zonă 
| de căutare bine delimitată. 
Imagine - stânga Imagine - dreapta 


Fig. 3. Zone de discontinuitate a profunzimii — cei doi pixeli marcați cu un punct alb 
corespund unul cu celălalt dar vecinătăţile lor diferă pentru că sunt apropiaţi de o 
discontinuitate de profunzime 


ALAIN CROUZIL, GUILLAUME GALES, SYLVIE CHAMBON 


Imagine — dreapta 


Imagine — stanga 


Fig. 4. Zone omogene — in zonele omogene nu avem prea multa informatie pentru a putea 
caracteriza pixelii; de aceea este dificil de gasit pixelul corespondent. 


Metodele locale pot fi implementate cu oarecare uşurinţă şi sunt din ce in ce 
mai utilizate in aplicaţii diferite. Din nefericire, ele sunt sensibile la dificultăţile 
prezentate în paragraful precedent. De aceea, există o subgrupă particulară de metode 
bazate pe creşterea regiunilor (propagation de germes). Ele permit a priori reducerea 
anumitor ambiguitati cu care se confruntă metodele clasice, precum şi reducerea 
timpului de calcul. De altfel, clasamentul oferit de protocolul de evaluare a metodelor 
de punere în corespondență densă a pixelilor pentru stereoviziunea binoculară a lui 
Middlebury’ [Scharstein, 2002] pune în evidenţă rezultatele foarte bune obţinute de 
metodele bazate pe regiuni. Este vorba despre o familie de metode hibride, deoarece 
in general ele constau într-o etapă de punere în corespondență locală pentru a ini- 
fializa algoritmul, urmată de o etapă de optimizare globală pentru rafinarea rezulta- 
telor. Metodele bazate pe regiuni pornesc de la ipoteza că pixelii din aceeaşi regiune 
care rezultă în urma unei segmentări de culoare omogenă sunt proiecții ale unei 
aceleiaşi suprafețe. Această ipoteză este în general adevărată aproape peste tot, iar 
contururile obiectelor din cadrul scenei, acolo unde se situează discontinuitatile de 
profunzime, coincid cu marginile regiunilor. 


1.5 Organizarea capitolului 


j Abundenfa de lucrări științifice care fac obiectul punerii în corespondență a 
pixelilor nu ne permite să fim exhaustivi. Obiectivul acestui capitol este să ofere o 
privire de ansamblu asupra pistelor care au fost abordate şi de a ghida cititorul care 
dorește să știe mai multe, 

i Secţiunea 2 este consacrată metodelor locale care caută corespondentii fie- 
cărui pixel într-o manieră independentă presupunând că vecinătăţile a doi pixeli 
corespondenţi se aseamănă, Secţiunea 3 prezintă o abordare locală particulară bazată 


hitp://vision,middlebury.edu/stereo/ 


Scharstein, Daniel, Szeliski, Richard, „A taxomomy and evaluation of dense twoframe stereo 
correspondence algorithms”, International Journal of Computer Vision, 47(1):7-42, 2002. 


118 


| 
| 
| 
| 
| 
| 
| 


Stabilirea corespondentelor între pixeli în stereoviziunea binoculară 


pe propagarea germenilor, care porneşte de la un set de pixeli corespondenți fiabili, 
germenii, permiţând limitarea mărimii zonei de căutare a pixelilor corespondenți 
printre vecinii acestora. Secţiunea 4 tratează metodele globale care caută corespon- 
dentii tuturor pixelilor prin minimizarea unei erori globale pe toată imaginea. In 
sfârşit, secțiunea 5 descrie metodele care utilizează o segmentare a imaginilor în 
regiuni pentru care sunt estimati parametrii unui model de suprafață. 

Imagine — stânga Imagine — dreapta 
gig OAR Sas E x% y 3 ; Me et 

a RE e . Dag RE at f ý i. 


Fig. 5. Zone cu textură regulată — pentru un pixel există mai mulți candidați posibili pentru 
că vecinatatile se aseamănă. Din această cauză este dificil de găsit pixelul care corespunde cel 
mai bine. 


2. Metode locale 


Metodele locale clasice caută în cele două imagini pixelii ale căror vecinatati 
se aseamănă cel mai mult prin utilizarea măsurilor de corelaţie. Pentru fiecare pixel 
dintr-o imagine a cuplului, căutarea pixelului corespondent în cealaltă imagine se 
face într-o serie de pixeli candidaţi care se constituie într-o zonă de căutare. Fără 
cunoştinţe a priori, această zonă poate să se întindă la ansamblul pixelilor din cealaltă 
imagine, dar este posibil ca ea să fie redusă, în particular prin utilizarea modelului 
geometric al sistemului de captare a imaginilor care introduce condiţia de 
epipolaritate, 


2.1 Rectificarea epipolara 
Condifiile geometrice permit reducerea ansamblului de pixeli corespondenti 


posibili, in particular prin utilizarea geometriei epipolare care descrie relatiile dintre 
pixelii corespondenţi. Această relaţie este descrisă de parametrii incluşi în matricea 
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fundamentală [Hartley, 2003]’. Condiţia de epipolaritate specifică faptul că pixelul 
corespondent al unui punct dintr-o imagine se găseşte pe o dreaptă din cealaltă ima- 
gine. Această dreaptă este dreapta epipolară asociată şi ecuaţia ei poate fi obținută 
pornind de la coordonatele punctului şi pe baza matricei fundamentale. 


Una din configuratiile particulare ale sistemului de captare a imaginilor este 
aceea in care dreptele epipolare sunt toate paralele şi orizontale. Există posibilitatea 
de a simula această configuraţie prin aplicarea asupra celor două imagini a unor 
transformări geometrice denumite omografii. Matricele acestor omografii pot fi obti- 
nute pornind de la matricea fundamentală care, ea însăşi, poate fi estimată pornind de 
la corespondența unor puncte de interes [Loop, 1999]°. Fig. 6 prezintă efectul unei 
rectificări epipolare asupra unei perechi de imagini. Numeroase metode de punere în 
corespondență consideră că imaginile au fost deja supuse acestei rectificări epipolare. 
Aceasta permite reducerea căutării corespondentului unui pixel situat pe linia i şi 
coloana j a unei imagini stânga numai la pixelii de pe aceeaşi linie din cealaltă 
imagine, situați la stânga coloanei j. 


Ima 


gine — dreapta 


5 paepaeroa 


Imagine — stânga 
RT i p SERE EREE Ze 


Fig. 6, Rectificarea epipolară a în partea de sus este prezentată o pereche de imagini pentru 
care s-a efectuat rectificarea epipolară, rezultând imaginile din partea de jos, în care pixelii 
corespondenţi sunt situați pe aceeaşi linie. i 


Hartley, Richard, Zisserman, Andrew, „Multiple view geometry” 
second edition, 2003, i ; 
Loop, Charles T., Zh: y i } 

3 » Zhang, Zhengyou, „Computing rectifvin ies fi îi 
BOP Tzi Zhe A 7 i/ving homographies for stereo vision”, in 
IEEE Computer Society Conference on Computer Vision ' etnia 
125-131, Fort Collins, U.S.A, June 1999, 


» Cambridge University Press, 
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2.2 Definiţii şi notații 


Înainte de a prezenta algoritmul elementar al abordării locale, vom preciza 
mai întâi notatiile care vor fi utilizate în cele ce urmează. 


Notăm cu p/j, ie [0:74] E [0;w] pixelul situat pe linia i şi coloana j a 
imaginii s de mărime hxw. Notăm cu s imaginea stânga şi cu d imaginea dreapta. 


e Funcția imagine F — valoarea unui pixel este dată de „funcția imagine 
discretizală”: 


is :[0;4]x[0;w] > N° 
i orl J) 0) 
unde J (ji iJ) este valoarea dimensiunii c a pixelului p;,. Avem, de exemplu, c 


= 1 dacă luăm în considerare nivelele de gri sau c = 3 dacă considerăm un spațiu de 
culoare. Pentru simplificare, vom considera c = 1 în continuarea acestui capitol. 


e  Vectorul de disparitate d — rezultatul punerii în corespondență poate fi 


° 0 ° s>d . one ee ° 
reprezentat printr-un vector de disparitate d} ° care descrie poziția relativă a doi 


pixeli corespondenți între cele două imagini s şi d (conform Fig. 7). Imaginea de 
pornire, aici s, este imaginea de referință. In continuarea acestui capitol, dacă nu 
se fac alte precizări, vom considera imaginea stânga ca imagine de referință. 


Pentru simplificarea notatiei vom folosi de =d,,. Vectorul de disparitate 


asociat pixelului p; , poate fi descris ca 


Ch pe (la, E | la, Kh o {asc}. Dacă d, £ asc , atunci: 


=| +d, (2) 
J J 


unde p; peste pixelul din imaginea dreapta ce corespunde pixelului Pas iar 


| 
| 
| 
| 


d, sunt capetele intervalelor valorilor posibile pentru componentele 


min?“ Imax ? min? Jma 
vectorului de disparitate, în timp ce asc este un vector de disparitate simbolic atribuit 
pixelilor ale căror corespondenţi sunt ascunşi. 

Cum am amintit deja, este posibil ca imaginile să fie rectificate de aşa 
manieră încât corespondentul pixelului din imaginea stângă să se situeze pe aceeaşi 
linie în imaginea din dreapta (conform paragrafului 2.1). In acest fel, prima 
componentă a vectorului de disparitate este întotdeauna nulă. In acest caz, vectorul 
de disparitate poate fi înlocuit cu o mărime scalară d,; denumită disparitate sau 
valoare de disparitate, exprimată ca: 


d, = (3) 
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În continuarea acestui capitol, dacă nu se fac alte precizări, ne vom plasa 
întotdeauna în acest caz. 


Imagine - stânga Imagine - dreapta 


Bey EI ZI) EEIEZ [ez 
[ED E) a ea a E! 
a 9 (SE | 
ELI aie SEI 
po 


“e Funcţia de disparitate d — câmpul vectorilor de disparitate al unei perechi de 
imagini poate fi reprezentat printr-o funcție de disparitate: 


d:[o;n]x[0;w]— (la, 3a, la, 


Jmin 


J p a dj (4) 


e Funcția de corespondență m — la fel putem defini o funcție de corespondență 
care dă coordonatele pixelilor corespondenţi: 


m: [0;A]x [0;w] > (o; h|x lo; w)ug 


ai ; 


| 
| 
| 
e Hartă de disparitate — în final, rezultatul punerii în corespondență a pixelilor 

poate fi fi vizualizat cu ajutorul unei hărți de disparitate. Este vorba despre o ima- 
gine pentru care nivelul de gri al fiecărui pixel este proporțional cu disparitatea | 


ZAM Jo fasc} 


sa față de imaginea de referință. Cu cât este mai deschis, cu atât elementul care 
se proiectează pe acel pixel este mai apropiat de sistemul de captare a imaginilor 
(conform Fig. 8). 


122 


Stabilirea corespondenjelor între pixeli în stereoviziunea binoculară 


Imagine — stânga Imagine — dreapta Harta de disparitate 


ay, 8. O pereche de imagini şi harta de disparitate — în cadrul hărţii de disparitate, pixelii 
negri sunt pixelii ale căror corespondenţi sunt ascunși sau necunoscuți 


2.3 Algoritmul elementar 


Metodele locale măsoară similitudinea între vecinatatile celor doi pixeli. 
A astă vecinătate este denumită zonă de agregare sau fereastră de corelaţie. Pentru 


implificare, considerăm o vecinătate pătrată (nxn = (2r +1)x (2r+1),re N’), 
tă pe pixelul luat în considerare. 

[i Notăm cu a vectorul de dimensiune n? care conține valorile pixelilor vecini 

pb elului considerat în cadrul imaginii de referință şi cu b vectorul similar din 

cealaltă imagine. Metodele locale presupun că vecinatatile celor doi pixeli 

it corespondenți se aseamănă, adică: 

axb (6) 


j Această similaritate este evaluată pentru fiecare pixel din imaginea de 
f referință şi fiecare pixel din zona acestuia de căutare din cealaltă imagine. În Fig. 9, 


pixelul din imaginea din stânga, căruia trebuie să-i găsim corespondentul, este marcat 
cu un punct negru. Corespondentul său este căutat printre pixelii situați în zona de 
căutare. În acest exemplu, zona de căutare este unidimensională. Ea este definită în 
funcţie de poziţia pixelului din stânga pentru care căutăm un corespondent. Pentru 
fiecare candidat, se calculează un scor de corelaţie care ia în calcul vecinătatea 
(fereastra de corelare care aici are dimensiunea de 3x3). Candidatul pentru care se 
obține cel mai bun scor este reţinut ca pixel corespondent (punctul negru) 

Ceea ce noi numim abuziv măsură de corelație poate de fapt cuantifica o 
similaritate sau, la fel de bine, o neasemănare. De aceea, în cele ce urmează vom 
considera că scorul „cel mai bun” corespunde maximului unei măsuri de similaritate 
sau minimului unei măsuri de neasemănare. 

Candidatul din zona de căutare a cărui vecinătate se aseamănă cel mai mult 
cu cea a pixelului luat în considerare, adică cel care a obținut cel mai bun scor de 
corelaţie, este selecționat ca şi corespondent. Această strategie poartă numele de 
strategie winner-take-all (wta — câștigătorul ia totul). Algoritmul 1 rezumă diferitele 
etape ale punerii în corespondenţă prin metoda clasică locală. 
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Zona de căutare 


Imagine - stangé 


| 

| 

Scor | 
| | 

| 

| 


Pixeli candidaţi 


Fig. 9. Stabilirea corespondenţei locale | 


Şi mai formal, definim o măsură de corelație generică c prin: 
2 2 

c: N", N" >N 

a,b o c(a,b), (7) | 

Există erori frecvente datorate algoritmului elementar, în particular în zonele 

acoperite sau apropiate de discontinuitatile de profunzime (am văzut, în paragraful 


1.3, că ipoteza expresiei (6) nu este întotdeauna verificată). 
Pentru a limita aceste erori, este posibil să fie utilizate: 


e condiții: care evita împerecherea unor pixeli care nu îndeplinesc anumite 
proprietăți; 

e măsuri de corelație adaptate la context: anumite măsuri de corelaţie au fost 
concepute pentru a face faţă anumitor dificultăţi, cum ar fi, de exemplu, apro- 
pierea de discontinuităţile de profunzime; 

e ferestre de corelaţie adaptate la context: obiectivul este de a adapta morfologia 
ferestrei de corelaţie astfel ca să nu se ia în calcul decât partea din vecinătate care 
este cea mai pertinentă (totalitatea pixelilor aparţinând vecinătăţilor pătrate a doi 
pixeli corespondenţi nu se aseamănă neapărat în apropierea zonelor ascunse sau 
cu discontinuități de profunzime, conform paragrafului 1.3), 
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2.4 Utilizarea condiţiilor 


Distingem două tipuri de condiţii: a priori şi a posteriori, 

Condiţia a priori este utilizată pentru a limita riscul de a efectua o împe- 
rechere eronată prin reducerea zonei de căutare cu ajutorul geometriei epipolare: ne 
referim la condiţia de epipolaritate, 

Condiţiile a posteriori sunt utilizate după stabilirea corespondentelor între 
pixeli, pentru eliminarea împerecherilor care nu sunt suficient de fiabile. Totuşi, ele 
pot elimina în măsură egală unele perechi bune, reducând astfel densitatea rezulta- 
tului obținut, Condiţiile de punere în corespondenţă sunt numeroase și nu vom pre- 
zenta aici decât pe cele mai des utilizate, 


NAY — = 


Wax 


execută pentru fiecare pixel p „din imaginea stânga 


execută pentru fiecare pixel candidat pi j din zona de căutare din 
; imaginea dreapta 
4; S —c(a,b), scorul de corelaţie între valorile pixelilor din vecină- 


titile lui p „(stocate în vectorul a) şi Pi, (stocate în vectorul b) 


S: dacă 5 > Su Atunci 


S C] 


max 


A 


7: iei 
8: jej 
9; sfarsit daca 


10; sfîrşit execută 
11: m({i Di i 


12: sfârşit execută 


ALGORITMUL 1 — Algoritmul elementar de punere în corespondenţă clasică locală. 


2.4.1 Condiţia de epipolaritate 


Aşa cum am discutat deja în paragraful 2.1, modelul proiecției în perspectivă 
aduce o condiţionare geometrică ce permite limitarea căutării corespondentului unui 
pixel la dreapta epipolară asociată acelui pixel. In practică, perechile de imagini 
suferă o rectificare epipolară care reduce zona de căutare corespunzătoare unui pixel 
situat pe linia i şi coloana j în imaginea stânga la pixelii din imaginea dreapta care 
sunt situaţi la stânga coloanei j de pe aceeaşi linie i. 
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2.4.2 Condiţia asupra scorului de corelaţie 


Această condiționare, care este probabil cea mai des utilizată, constă in 
eliminarea perechilor pentru care scorul de corelaţie este inferior unui prag, adică nu 


sunt păstrate decât perechile ( Pigs pi j ) pentru care: 
c(a,b) >t, (8) 
unde a este vectorul valorilor pixelilor din vecinatatea lui pi j» b este vectorul 


valorilor pixelilor din vecinătatea lui pi pe iar t, e R este un prag. 


| 2.4.3 Condiția de ordine 


E Ordinea pixelilor de-al lungul dreptei epipolare trebuie să fie aceeaşi cu cea a 
iy _corespondentilor lor de-a lungul dreptei epipolare conjugate (conform Fig. 10): 


(mli APE al aml iT )=k as in ©) 


Imagine - stânga . Imagine - dreapta 


Fig, 10. Condiţia de ordine — În partea de sus prezentăm un exemplu în configurație paralelă 
în care condiția de ordine este îndeplinită, în timp ce în partea de jos avem un exemplu în care 
aceasta nu este îndeplinită 


2.4.4 Condiţia de unicitate 


i Această condiţie stipulează că un pixel dintr-una dintre imagini poate fi 
împerecheat cu cel mult un pixel din cealaltă imagine (conform Fig. 11). Condiţia de 
unicitate este îndeplinită când; 


(nh; Ph ile ame Pel aF) oy 
GAY) Al ae mere Aee al 
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Imagine - Mezul Imagine - dreapta 


ee a 
E je] | || 
Bit 


îndeplinită 
2.4.5 Condiţia de simetrie 


Condiţia de simetrie introdusă in [Fua, 1993]’, constă în satisfacerea 

| condiției de regăsire a aceloraşi împerecheri indiferent care este imaginea de referință 

| (conform Fig. 12): 

| m IP a TI an 

| Această condiție poate fi impusă prin efectuarea unei verificări bidirectionale, adică 
prin efectuarea unei puneri în corespondență a imaginii stânga față de imaginea 
dreapta, a unei puneri în corespondență a imaginii dreapta față de imaginea stânga şi 
prin îndeplinirea faptului că regăsim bine aceleaşi împerecheri î în ambele sensuri. 

În Fig. 12 se ilustrează onditia de simetrie si de simetrie aproximativă. În 
partea de sus este prezentat un exemplu în care condiția de simetrie este îndeplinită, 
în timp ce în partea de jos este un exemplu în care aceasta nu este îndeplinită. În 
acelaşi timp, în acest exemplu, condiția de simetrie aproximativă este îndeplinită 
dacă luăm /,, = 


7 Rua, Pascal, „A parallel stereo algorithm that produces dense depth maps and preserves image 
features”, International Journal of Machine Vision and Applications, 6:35-49, 1993. 
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Imagine - stânga _ Imagine - dreapta 


pa 
me 


= 
y g 
N 
`‘ ; HA 
Pia 


2.4.6 Condiția de simetrie aproximativă 


îi Condiţia precedentă este foarte puternică, astfel că îndeplinirea ei poate 
elimina multe dintre împerecherile corecte. O variantă mai tolerantă, pusă în operă 
printr-o verificare bidirectionala suplă, şi care utilizează un prag ty € R, este dată de: 


mi Mab Tomb SD 3.7 si-l 2 
2.4.7 Consistenta aproximativă 


Consistenta aproximativa prezentata in [Gong, 2003]? este o alternativă la 

că see 3, : 9 a aha : 

condiţia de simetrie. Dacă un punct al scenei se proiectează in pi j şi Pij» atunci 
> d . . că + 

corespondentul lui pi j este p; j» mai putin dacă el este ascuns. În acest caz, el nu 


poate fi acoperit decât de un punct mai apropiat de camera de luat vederi şi având, 
deci, o disparitate mai mare, care se traduce prin: 


Dacă j+d,, = j, atunci pentru toți j'> j, j'+d, p £ jy şi pentru toți 
În < jaja td, y, FI (13) 


2.4.8 Limita gradientului de disparitate 


Această condiţie impune că disparităţile nu variază brusc între doi pixeli 
vecini. Este definită de: 


8 : = 
Gong, Minglun, Yang, Yee-Hong, „Fast stereo matching using realibility-based dynamic 
programming and consistency constraints”, IEEE International Con 


: feri S ter Vision, 
Nisa, Franța, vol. 1, pp. 610-617, octombrie 2003. oana Copier 
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mi Al )=ki i ami, AS j| > 
ll bb al -b al (14) 
h al-l eek Îi 


Ss . Ss . . . . .. . . . . ip 
unde Pi, Si Pin sunt doi pixeli care sunt proiecţiile a doi pixeli din scenă care 


aparțin unei aceleiaşi suprafeţe şi unde ¢, e R este un prag. 


2.4.9 Condiţia de rang 


Această condiţie, prezentată în [Banks, 2001], compară valoarea pixelului 
central cu cele ale celorlalți pixeli din fereastra de corelaţie şi impune ca vecinii ale căror 
valori sunt superioare celei a pixelului central să fie aceeaşi pentru cei doi pixeli 
corespondenți. În exemplul dat în Fig. 13, în prima linie sunt prezentate valorile conţinute 
într-o fereastră de corelaţie de 3x3 în jurul pixelului considerat din stânga (a) şi în jurul a 
doi candidaţi din dreapta (b şi ©). În cea de-a doua linie, sunt prezentate, pentru fiecare 
fereastră, diferențele între valoarea pixelului central şi cele ale fiecărui vecin al său. 
Constatăm astfel că în exemplul dat, aceste diferențe pentru candidatul (b) au toate 
acelaşi semn ca şi cele ale pixelului considerat (a): condiţia de rang este respectată. În 
schimb, nu acesta este cazul pentru toate diferențele candidatului (c) (cu aldine): condiția 
de rang nu este respectată. Această condiție poate fi scrisă: 


ml: li il> 


2 (15) 
n 5 n s sS d d 
v(k,1) e -z 4 > (Bees = Tj ites =~ ie) 
Stanga Dreapta 
(a) (b) (c) 
250 200 198 255 205 203 255 205 100 
j Nivele de 100 104 110 105 109 115 105 109 105 
A gri 50 48. 78 by oS e Bi Beh AAN) 
f 146 96 94 146 96 94 146 96 -9 
d Diferenţă, -4 0 6 -4 0 6 -4 Q -4 
: -54 -66 -26 -54 -56 -16 GA A t 
| Fig. 13. Condiţia de rang 
| 9 Banks, Jasmine, Bennamoun, Mohammed, „Reliability analysis of the rank transform for stereo 
i matching”, IEEE Transactions on Systems, Man, and Cybernetics, 31(6):870-880, 2001. 
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2.4.10 Condiţia de fiabilitate 


Aplicarea unui prag asupra unor măsuri de fiabilitate permite eliminarea 
împerecherilor mai puţin fiabile. Fie r o funcţie care măsoară fiabilitatea pornind de 
la m scoruri de corelație între pixelul considerat pi, şi cei m candidaţi Die din 


zona de căutare cu k e lo; m|: 


PRR 
M M (16) 
c(a,b), a r\| c(a,d), 
M M 
Notăm c= K i cla, b), K i . Condiţia poate fi scrisă acum: 
r(c)<t, (17) 
unde ¢, ER este un prag. Putem să distingem următoarele măsuri de fiabilitate 
(funcții r): 


e Măsură de ambiguitate — măsoară distanța în pixeli dintre candidatul care a obținut 
cel mai bun scor de corelație şi cel care are cel mai bun al doilea scor (conform Fig. 


14). Fie: 
amb(c) z (rm ee el ( 8) 
unde (e), şi (e), sunt primele două elemente ale vectorului c ale cărui elemente 


sunt triate în ordine descrescătoare. Măsura de ambiguitate nu este calculată decât 
dacă cel de-al doilea cel mai mare scor de corelaţie este apropiat de primul. Fie 


d, = (e), (0), . Măsura de ambiguitate este dată de: 
AMB(c) = ee dacă d<t, 


0 dacă nu 
unde ¢, e R este un prag. 


(19) 


Stabilirea corespondenjelor între pixeli in stereoviziunea binoculară 


(c); ,  Ambiguitatea 


Fig. 14. Măsura de ambiguitate — Candidaţii din zona de căutare sunt marcati pe abscisă. 
„Măsura de ambiguitate corespunde distanţei (în pixeli) dintre cei doi candidaţi care au obținut 
cele mai bune două scoruri de corelaţie (în ordonată). 


e Măsură de imprecizie — este dată de distanţa dintre pixelii k; şi kz care definesc 
intervalul în care scorurile sunt apropiate de scorul cel mai bun, adică sunt foarte 
mari (conform Fig. 15): 


IMP(c) =|k, = k, 
unde /, e R este un prag. 


(c); 


„unde k; şi kz sunt astfel ca Vk e lk, aS | Gat, (20) 


Imprecizia 
i) 1 


A 
A 
/ N 
( ) 
i ky ko a o 


Fig, 15. Măsura de imprecizie — Candidaţii din zona de căutare sunt marcați pe abscisă, 
măsura de imprecizie corespunde numărului de pixeli pentru care scorul de corelaţie, în 
ordonată, este superior unui prag ti. 


2.5 Măsuri de corelaţie 


Au fost propuse numeroase măsuri de corelaţie; ele pot fi clasificate în cinci 
familii [Chambon, 2011]!%; 


10 
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e Clasice — măsurile care fac apel la statistica clasică a distribuţiei diferenţelor de 
valori ale pixelilor între cele două ferestre de corelaţie. Se referă, de exemplu, la 
măsurile care calculează o normă sau o varian{a. 

e  Încrucişate — măsurile care utilizează o corelaţie încrucişată ca şi coeficient de 
corelaţie liniară. 

e Derivate — măsurile care se aplică variațiilor valorilor pixelilor. 

Neparametrice — măsuri bazate pe ordinea nivelelor de gri având ca fundament 
statistici neparametrice. 

e Robuste — măsuri care se bazează pe instrumente ale statisticilor robuste pentru a 
nu lua în calcul valorile pixelilor din fereastra de corelaţie în imaginea de 
referință care nu au un corespondent în fereastra de corelaţie a pixelului candidat 
din cealaltă imagine (cu precădere în cazul acoperirii sau discontinuitatii de 
profunzime). 

Vom prezenta mai jos, pentru fiecare familie, măsurile de corelaţie care dau 
cele mai bune rezultate după evaluarea realizată în [Chambon, 2011]! precum şi 
măsurile care vor fi utilizate în continuarea acestui capitol. 

O taxonomie detaliată a măsurilor de corelație pentru stabilirea 
corespondentelor pixelilor poate fi, de asemenea, găsită în [Chambon, 201 ny 2 
e Norma Lp (clasică) — se referă la o măsură de distanta: 


P 
D,(a,b)=|a-4,. - (21) 
e D; este suma valorilor absolute ale diferențelor (SAD: Sum of Absolute 


Differences) si Dz suma pătratică a diferențelor (SSD: Sum of Squared 
Differences). 


e Suma valorilor absolute ale diferențelor centrate (ZSAD: Zero mean Sum of 
Absolute Differences) (clasică) — un caz particular de distanţă este: 


ZS40%a,b)= a u(a)) (6-0), 2) 

unde ula) este vectorul de dimensiune n? care conține media elementelor vectorului 

a. Această măsură centrează valorile ferestrei de corelaţie cu scopul de a fi invarianta 

la translație, adică ZSAD(a +x,b+ y) = ZSAD(a,b), orice (x, y) ERA. 

e Corelatie incrucisata normalizata (NCC de la Normalized Cross Correlation) 
(încrucişată) — Corelatia încrucişată poate fi folosită ca măsură de similaritate: 


NCIC ofa (23) 

lall 

e unde : reprezintă produsul scalar şi unde valorile ferestrelor de corelație sunt 
normalizate cu scopul ca măsura să fie invariantă la scalare, adică 
NCC(ax,by) = NCC(a,b),V(x,y) eR”. 

e  Corelaţie încrucișată centrată normalizată (ZNCC de la Zero mean 


Normalized Cross Correlation) (încrucişată) — Există, de asemenea, o versiune 
centrată a NCC, coeficientul de corelaţie liniară: 


"1 Idem. 
12 Idem, 
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ZNCC(a, b) ue (a Fi u(a)): ( ra u(b)) (24) 
la-ula)b- u) 
Această măsură este invariantă la scalare şi la translație. 
e Corelatia lui Moravec (MOR) (încrucişată) — O altă măsură de corelaţie bazată 


a pe corelatia încrucişată este măsura lui Moravec [Moravec, 1980]!*: 


“Ma a.b) - 2e- ula): (e - x) 
q MOR(a,b) fe-la o-o 25) 


s- A (26) 


Wisp jeoF)efer isp iar) 


unde VJ desemnează câmpul vectorilor gradient. Măsura GC este invariantă la 
translație. 

e Smooth Median Powered Deviation (SMPD,) (robustă) — Această măsură se 
aplică estimatorului SMAD (Smooth Median Absolute Deviation) propus in 
[Rousseeuw, 1992]!°. Este vorba de calcularea unei distante centrate robuste. 
Robustetea este obţinută graţie centrarii prin mediană şi utilizării unei distanțe 
trunchiate. Astfel, deşi există diferențe importante între două vecinatati de pixeli 
corespondenți datorate acoperirilor sau discontinuitatilor de profunzime, în cazul 
acesta nu se tine cont de ele, rezultând astfel o măsură mai robustă decât o 
măsură clasică (care va ţine cont de aceste mari diferenţe): 


h- 
SMPD, (a,b) =. (a-—med(a—6)\|"), ; 07) 
k=0 


Moravec, Hans.P,, „Obstacle Avoidance and Navigation in the Real World by a Seeing Robot 
Rover”, Teză de doctorat, Universitatea Stanford, Stanford, California, S.U.A., septembrie 1980. 

ae Crouzil, Alain, Massip-Pailhes, Louis, Castan, Serge, „4 new correlation criterion based on 
gradient fields similarity”, International Conference on Pattern Recognition, vol. 1, pp. 632-636, 
Viena, Austria, august 1996, 

$ Rousseeuw, Peter J., Croux, Christophe, „L-statistical analysis and related methods”, în Y. Dodge, 
editor, Explicit Scale Estimators with High Breakdown point, pp. 77-92, Elsevier, Amsterdam, 


Olanda, 1992. 
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unde med(a—b) este mediana diferențelor valorilor celor două ferestre de 


corelaţie şi k :n” —1 este al elementul de ordin k al vectorului de abateri de la 
mediană triat în ordine crescătoare. În general se ia h =n? /2. 


CENSUS (familia neparametrică) — Această măsură, introdusă în [Zabih, 
1994]'°, tine cont de diferenţele de valori între pixelul studiat şi vecinii săi. Fie 
R" si R’ două şiruri de biti definiţi în următoarea manieră: 


1 dacă b,>b, 


R’ = B refot] z (28) 
0 dacă nu "10 dacă nu 


ligdacateane=a, 
n 


unde ® este operatorul de concatenare şi k parcurge vecinătatea (de dimensiune 
n?) a fiecărui pixel din fereastra de corelaţie. Scorul este dat de: 


CENSUS (a,b) = d yan (R°, R°) (29) 


unde dyan este distanța Hamming, adică numărul de biti care diferă între cele 


două şiruri. Această măsură dă, de asemenea, rezultate bune în zonele apropiate 
de acoperiri şi de discontinuități de profunzime in [Chambon, 2011]'7. Această 
măsură evaluează respectarea condiției de rang (conform paragrafului 2.4.9). Fig. 
16 prezintă disparitatile perechii de imagini Conuri (vezi Fig. 8) obținute cu 
măsura CENSUS. 


Fig, 16. Harta disparităţilor perechii de imagini Conuri obținute cu măsura CENSUS 
(vecinătate 9 x 9) 


Zabih, Ramin, Woodfill, John, »Non-parametric local transforms for computing visual 
correspondence”, European Conference on Computer Vision, pp. 151-158, Stockholm, Suedia, mai 
1994, 

Chambon, Sylvie, Crouzil, Alain, „Similarity measures for image matching despite occlusions in 
stereo vision”, Pattern Recognition, 44:2063-2075, 2011, 
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2.6 Vecinatati adaptabile 


O dimensiune prea mică a ferestrei de corelaţie nu tine cont de atâta infor- 
matie încât să fie suficient de discriminantă şi să facă față unor anumite dificultăţi, în 
particular în zonele omogene sau constituite din texturi regulate. În plus, măsura riscă 
să fie prea sensibilă la mici variaţii putin semnificative (zgomot). Pe de altă parte, o 
„ fereastră de corelaţie prea mare riscă să conţină pixeli care nu au aceeaşi disparitate 
ca şi cea a pixelului considerat. Astfel, pentru doi pixeli corespondenţi, vom obţine 
vecinatati care nu sunt întotdeauna similare (conform paragrafului 1.3). Măsura de 
corelaţie utilizată tine cont de aceste diferenţe şi, dacă aceasta nu este adaptată, dă 
scoruri scăzute pentru doi corespondenți şi poate implica erori de împerechere. De 
aceea au fost propuse diferite tehnici care permit adaptarea mărimii sau formei 
ferestrelor de corelație pentru a nu ţine cont decât de pixelii din vecinătate care 
corespund unul altuia. Se pot distinge următoarele metode: 


e deformare legată a ferestrelor de corelaţie: ferestrele de corelaţie au aceeaşi 
formă în imaginea de referință şi în cealaltă imagine; 
e deformare independentă a ferestrelor de corelație: ferestrele de corelaţie nu 
au aceeaşi formă în imaginea de referință şi în cealaltă imagine; 
e ponderarea pixelilor din fereastra de corelaţie: o pondere este atribuită 
= fiecărui pixel din fereastră şi intervine în calculul scorului de corelaţie. 


2.6.1 Deformare legată a ferestrelor de corelaţie 


e minimizarea unui criteriu de incertitudine — În [Kanade, 1994]'5, autorii au 
propus un algoritm iterativ care estimează şi actualizează pentru fiecare pixel 
valoarea de disparitate găsită, adaptând la fiecare iteratie dimensiunile ferestrei 
de corelaţie utilizată. Aceste dimensiuni sunt determinate prin testarea mai 
multor dimensiuni posibile şi prin selectionarea acelora care minimizează un 
criteriu de incertitudine aplicat disparitatii estimate în cadrul iteratiei precedente. 
Calculul acestui criteriu de incertitudine este bazat pe un model statistic care tine 
cont de distribuţia diferențelor dintre disparităţile estimate pentru pixelul 
considerat şi cele estimate pentru ceilalți pixeli din fereastra de corelaţie, precum 
şi distribuţia variațiilor valorilor pixelilor din fereastra de corelație a candidatului 
din cealaltă imagine. Astfel, fereastra care minimizează acest criteriu este 
utilizată pentru actualizarea valorii disparitatii estimate a pixelului considerat şi 
procesul se repetă până la convergență. 

e ferestre multiple fixe — În [Bobick, 1999]'’, sunt utilizate nouă ferestre de 
corelație diferite. Prima este centrată pe pixelul considerat, celelalte opt sunt 
excentrice. Scorul final este dat de fereastra care dă scorul de similitudine cel 


Kanade, Takeo, Okutomi, Masatoshi, „4 stereo matching algorithm with an adaptive window: 
Theory and experiment’, \EEE Transactions on Pattern Analysis and Machine Intelligence, 16(9): 
pp. 920-932, 1994, 

' Bobick, Aaron F., Intille, Stephen S., „Large occlusion stereo”, International Journal of Computer 
Vision, 33(3): pp. 181-200, 1999. 
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mai ridicat. Se presupune că este vorba despre scorul dat de fereastra care tine 
cont cel mai mult de pixelii vecini de aceeaşi disparitate ca şi pixelul considerat. 
Această tehnică este cunoscută sub numele de shiftable windows. 

ferestre multiple cu încrucișare — În [Lotti, 19947, autorii presupun că ruptu- 
rile de profunzime coincid cu contururile din imagine. O primă etapă constă în 
detectarea contururilor din imagine cu ajutorul unui filtru Canny-Deriche şi a 
aplicării unui prag cu histeresis. Patru ferestre pătrate de dimensiuni 1x1 sunt 
centrate mai apoi pe pixelul considerat. Fiecare fereastră este asociată uneia din 
cele patru direcții nord-vest, nord-est, sud-est, sud-vest şi este lărgită progresiv 
cât timp ea nu se suprapune pe contururile prezente în zona studiată. Scorul de 
corelaţie final este calculat considerând reunirea celor patru ferestre. 

ferestre multiple adiacente — În [Hirschmuller, 2002]”, o fereastră de corelaţie 
este centrată pe pixelul considerat şi apoi alte ferestre sunt plasate în jur, 
suprapunându-se peste ea. Fiecare fereastră dă un scor de corelaţie şi scorul final 
este compus din suma celor mai ridicate scoruri. 


2.6.2 Deformare independentă a ferestrelor de corelaţie 


Metodele prezentate mai sus descriu, pentru fiecare cuplu de pixeli cores- 


pondenti, ferestre de corelaţie de formă identică în imaginea de referință şi în cealaltă 
imagine fără să ia în calcul eventualele deformări ale obiectului considerat între cele 
două imagini, stânga şi dreapta. În acest caz, este de preferat să se modifice forma 
ferestrei de corelaţie în cealaltă imagine astfel ca să ia în calcul pixelii corespondenți 
ai pixelilor incluşi în fereastra de corelaţie ce aparține imaginii de referință. 


Deformarea ferestrei este abordată printr-o transformare afină a cărei para- 


metri pot fi estimati prin optimizare sau pornind de la distribuţia valorilor pixelilor în 
vecinătatea pixelilor corespondenți. 


21 


22 


23 


Estimarea prin optimizare — Această abordare este utilizată în [Devernay, 
1994]? [Garcia, 2001] pentru stabilirea corespondentelor prin corelaţie fină, 
caz în care parametrii transformării locale a ferestrei (deformare şi translație) 
sunt integrați măsurii de corelație. Stabilirea corespondentelor prin corelaţie fină 
este utilizată, de asemenea, în [Harvent, 2010]. O idee similară este utilizată în 


Lotti, Jean-Luc, Giraudon, Gerard, „Correlation algorithm with adaptive window for aerial image 
in stereo vision”, în European Symposium on Satellite Remote Sensing, pp. 2315-2325, Roma, 
septembrie 1994, 

Hirchmuller, Heiko, Innocent, Peter R., Garibaldi, Jon, „Real-time correlation-based stereo vision 
with reduced border errors”, International Journal of Computer Vision, 47(1-3): pp. 229-246, 2002. 
Devernay, Frederic, Faugeras, Olivier, „Computing differential properties of 3-D shapes from 
stereoscopic images without 3-D models”, raport de cercetare RR-2304, Institut National de 
Recherche en Informatique et en Automatique, INRIA, 1994, 

Garcia, Dorian, „Mesures de formes et de champs de deplecements tridimensionnels par stereo- 
ead d'images”, teză de doctorat, Institut National Polytechnique de Toulouse, decembrie 
Harvent, Jacques, „Mesures de formes par correlation multi-images: application a l'inspection de 
pieces aeronautiques a l'aide d'un systeme multi-cameras”, teză de doctorat, Universitatea din 
Toulouse, noiembrie 2010. 
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[Gruen, 1985]. Aceşti parametri trebuie apoi să maximizeze măsura de corelaţie 
adaptată care a fost aleasă. Ei sunt estimati printr-o tehnică de optimizare 
; (conform paragrafului 4.3) care depinde de măsura de corelație aleasă şi care 


DAIA 


: „necesită o estimare inițială a parametrilor, Parametrii translatiei sunt initial 
_estimati pornind de la o hartă de disparitate calculată in prealabil cu o metodă 
‘ „ clasică. Ceilalți parametri sunt consideraţi initial nuli. Vectorii de disparitate 


„rezultă în urma optimizării tuturor acestor parametri. 

e Pornind de la distribuţia valorilor pixelilor în vecinatatile corespondentilor 
est În [Kannala, 2007]'* autorii estimează în vecinătatea fiecărui pixel corespon- 
: dent parametrii unei elipse, in functie de distribuţia locală a valorii pixelilor. 
„ Transformarea afină locală corespunde apoi transformării între cele două elipse 


© „ale celor doi pixeli corespondenți. Această metodă este utilizată pentru stabilirea 
i = Corespondențelor prin propagare, aşa cum vom vedea in paragraful 3.2. 
l $ 


Wira 


„2.6.3 Ponderarea pixelilor din fereastra de corelaţie 


ge Bae 


21 pondere este atribuită fiecărui pixel din fereastra de corelaţie centrată pe 
pi elul considerat. Această pondere reprezintă influența fiecărui pixel vecin în calcu- 
lul scorului de corelaţie. 
e Mascarea zonelor de acoperire — În [Kostkrova, 2002], se face o primă 
~ „punere în corespondență cu ferestre de corelație centrate pe pixelii considerați. 
à „După aceea se realizează o a doua punere în corespondență, caz în care se 
| construieşte o fereastră de corelaţie nouă pentru fiecare pixel în funcţie de 
primele disparități estimate, astfel încât numai pixelii din vecinătate care au 
aceeaşi disparitate estimată cu cea a pixelului studiat, să fie luaţi în seamă la 
E calculul scorului de corelație. Avem aici de fapt o ponderare binară. 
n e Ponderare fotometrică şi spaţială — În [Yoon, 2005]%5, ponderea atribuită 
fiecărui pixel din fereastra de corelaţie este proporțională cu probabilitatea ca 
pixelul vecin considerat să aibă aceeaşi disparitate ca şi pixelul central. Această 


f probabilitate este estimată ținând cont de diferența de culoare dintre cei doi 
5 pixeli, precum şi de distanţa care îi separă. 

(4 In [Gong, 2007)”, o versiune simplificată a acestei ultime tehnici este eva- 
i luată şi comparată cu alte metode de agregare folosind ferestre pătrate şi ferestre 

2 Gruen, Armin W., „Adaptive least squares correlation: a powerful image matching technique”, 
ge South African Journal of Photogrammetry, Remote Sensing and Cartography, vol. 3, nr. 14, pp. 175- 
a, 187, 1985, 

% Kannala, Juho, Brandt, Sami S., „Quasi-dense wide baseline matching using meci propagation”, 
mn IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 1-8, Statele 
Ve Unite, iunie 2007, 

m H Kostkrova, Jana, Sara, Radim, „Disparity component matching revisited’, Raport tehnic CTU-CMP- 
je 2002-08, Universitatea Tehnică din Praga, 2002, 

* Yoon, Kuk-Jin, Kweon, In-So, „Locally adaptive support-weight approach for visual 
g- correspondence search”, IEEE Computer Society conference on Computer Vision and pattern 
ie recognition, vol, 2, pp. 924-931, San Diego, California, Statele Unite, iunie 2005, i 

ra Gong, Minglun, Yang, Ruigang, Wang, Liang, Gong, Mingwei, „A performance study on different 
de cost aggregation approaches used in real-time stereo matching”, International Journal of Computer 
in i Vision, vol. 2, nr, 75, pp. 283-296, 2007, 
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multiple diferite. Metoda cu ponderare este cea care furnizează cele mai puţine 
împerecheri eronate. 

Remarcă: se poate considera că tehnicile cu ponderare se aseamănă cu 
metodele bazate pe instrumentele statisticilor robuste. Cititorul interesat poate găsi 
detalii suplimentare în [Chambon, 2011]. 


2.7 Utilizarea culorii 


Pentru a utiliza toate informaţiile furnizate de culoare în cadrul imaginilor au 
fost propuse strategii de generalizare a metodei locale de stabilire a corespondentelor. 
În [Chambon, 2005]*!, au fost luate în considerare nouă spații de reprezentare a 
culorii şi au fost explorate patru variante: 

e Fuziunea scorurilor — pentru fiecare pixel candidat se calculează câte un scor de 
corelaţie cu fiecare componentă a spaţiului de culoare. Apoi scorurile care 
rezultă sunt fuzionate printr-un operator pentru a obţine scorul final. 

e Fuziunea hărților de disparitate — se efectuează o punere în corespondență prin 
utilizarea în mod independent a fiecărei componente de culoare a imaginii. Hăr- 
tile de disparitate astfel obținute sunt fuzionate mai departe cu ajutorul unui 
simplu mecanism de vot. Dacă hărțile de disparitate furnizează pixeli corespon- 
denti diferiţi, atunci cel pentru care rezultă cel mai bun scor este selecționat. 

e Generalizarea directă a măsurii de corelaţie — se referă la modificarea formu- 
lelor cu care se calculează măsurile de corelaţie astfel ca ele să ia în considerare 
mărimi de intrare vectoriale (culorile) în loc de mărimi de intrare scalare 
(nivelele de gri). Pentru aceasta, fiecare operator de bază (produs scalar, norme, 
distanțe, relaţii de ordine ...) utilizat în calculul acestor măsuri a fost generalizat 
pentru culori. 

e Analiza componentelor principale — ultima variantă constă în realizarea unei 
puneri în corespondenţă de tip clasic aplicată primei componente care rezultă din 
analiza componentelor principale a imaginilor color. 

Rezultatele experimentale prezentate în [Chambon, 2005]? arată că utilizarea 
culorii duce la ameliorarea rezultatelor punerii în corespondenţă a pixelilor, dar cu 
preţul unei creşteri a timpului de calcul. 

In particular, numărul de împerecheri corecte este mai ridicat şi verificarea 
bidirectionala (conform paragrafului 2.4.5) furnizează mai puţine rezultate fals 
negative față de utilizarea nivelelor de gri, mai ales în apropierea marginilor 
obiectelor. Pe de altă parte, nu este clară alegerea celui mai bun spaţiu de culoare, 
precum şi a celei mai bune strategii de utilizare a culorii, deoarece acestea sunt legate 
de măsura de corelaţie folosită. Cu toate acestea, în linii mari se pare că fuziunea 
scorurilor de corelație cu operatorul de maximizare şi spațiul de culoare RGB se 
constituie într-un bun compromis care este convenabil în numeroase situații. 


30 k j : a A Let 
Chambon, Sylvie, Crouzil, Alain, „Similarity measures Jor image matching despite occlusions in 


stereo vision”, Pattern Recognition, 44:2063-2075, 2011. 

Chambon, Sylvie, Crouzil, Alain, „Colour correlation-based matching”, International Journal of 
Robotics and Automation, 20(2):78-87, 2005, 

*2 Idem. 
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3. Stabilirea corespondentelor între pixeli prin metoda creşterii 
regiunilor 


Am arătat în paragraful 2.4.1 că zona de căutare a unui pixel corespondent 
poate fi redusă la o singură dreaptă prin utilizarea geometriei epipolare. Această zonă 
de căutare poate fi redusă şi mai mult dacă se ia în considerare ipoteza că, aproape în 
toate cazurile, pixelii vecini au disparitati apropiate. Pe această ipoteză se bazează 
metodele care utilizează propagarea. Este vorba despre algoritmi iterativi care se 
aplică i ‘unui set de perechi credibile de puncte de start numite germeni (,,seeds” în 
engleză). 
; _ În cele ce urmează vom utiliza următorii termeni: 

Germen — o pereche credibilă, adică o pereche de pixeli căruia îi acordăm o 
credere sporită. Setul de germeni aparținând unei perechi de imagini la 
10mentul / se notează cu G, (setul initial fiind notat cu Go). 


_ Pixelul stânga al unui germen — se referă la pixelul situat în imaginea din 
fa stân 


stânga (de referință în cazul nostru). Dacă pixelul p; „ este pixelul de referință al 


au germen, atunci îl vom nota cu g; j: Notăm cu Re setul de pixeli stânga ai 
germenilor G: 

Og Pixelul dreapta al unui germen — se referă la pixelul Soga în imaginea 
din dreapta a pixelului stânga al unui germen. Dacă pixelul PI „ este corespon- 


dentul unui pixel de referință al unui germen, atunci îl vom nota cu B .. Notăm 


cu Re setul de pixeli stânga ai germenilor G, 


e Funcția de corespondenţă a germenilor — Este definită astfel: 
sad s d 
E eiio Ga Bike en 
Bi, % giy 
e Fereastră de vecinătate — Se referă la fereastra centrată pe pixelul stânga al 
germenului considerat care include pixelii vecini pentru care vor fi căutați co- 
respondentii în vecinătatea pixelului dreapta al germenului. Pentru simplificare, 


vom considera o vecinătate pătrată de dimensiuni n, x n, (conform Fig. 19). 


* Zona de căutare — În cazul general, se referă la zona de căutare a candidaţilor 
din vecinătatea pixelului dreapta al germenului considerat. Pentru simplificare, 


= : Oot 237 A 
vom considera o zonă de căutare pătrată de dimensiuni ný. In cazul în care 
imaginile au fost rectificate, zona de căutare poate fi redusă şi mai mult până la 
zona marcată cu gri în Fig. 19, constituită doar din n,/2—l pixeli. 


3.1 Selectionarea germenilor inițiali 


Stabilirea coresponden{elor prin propagare este o alternativă interesantă la 
metodele locale clasice. Reducerea zonei de căutare a pixelilor corespondenți la 
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vecinătăţile germenilor nu numai că reduce volumul de calcul, dar în aceeaşi măsură 
reduce riscul selecționării unui corespondent greşit, totul ducând la diminuarea 
ambiguităţilor. Cu toate acestea, este necesară o atenţie deosebită la selecția 
germenilor inițiali. 


Distingem două familii de metode de selectare a germenilor: 

Împerecherea punctelor de interes — Punctele de interes sunt acei pixeli 
speciali din imagine care au proprietăţi care permit o împerechere mai credibilă, 
adică pentru care riscul de a comite erori de punere în corespondență este limitat. 
Există diferiți detectori de puncte de interes. Un detector „bun” este repetabil 
[Schmid, 2000], adică trebuie să fie capabil să detecteze pixelii care sunt 
proiecţii ale aceloraşi elemente ale scenei în imagini diferite. În felul acesta, la 
punerea în corespondenţă a unui punct de interes, candidaţii sunt reduşi la un 
sub-set mic de pixeli. Aceasta prezintă mai puţine ambiguitati în alegerea 
corespondentului decât dacă s-ar fi testat, de exemplu, toţi pixelii de pe dreapta 
epipolară corespondentă. Această abordare o găsim utilizată în [Otto, 1989] 
[Lhuillier, 2002] [Kannala, 2007]. 

Perechi de interes — Nu există un criteriu de selecţie prealabilă a pixelilor. Se 


“aplică o metodă locală clasică de punere în corespondență tuturor pixelilor din 


imagine (sau numai unui subset de pixeli). Zona de căutare a candidaţilor este de 
aceea mai mare decât în cazul limitării la punctele de interes. Totuşi, se utilizează 
un set de condiţii tari pentru a elimina împerecherile care par mai puţin credibile. 
Perechile rămase, a priori considerate mai sigure, constituie setul inițial de 
germeni. Cu scopul de a tine sub control repartiția germenilor pe toată suprafața 
imaginilor, în [Chen, 1999] se utilizează o tehnică de bucketing, care constă în 
împărțirea imaginii în blocuri şi căutarea germenilor în cadrul fiecărui bloc. 


Proprietatea de repetabilitate a detectorilor de puncte de interes asigură că 


pixelii care sunt proiecţiile unei aceleiaşi entități din scenă sunt detectati în mai multe 
imagini ale aceleiaşi scene. În felul acesta, detectarea punctelor de interes permite 
limitarea căutărilor la un set de câțiva candidaţi printre care se găsesc foarte probabil 
pixelii corespondenți. Această abordare este deci interesantă pentru selecţia germe- 


nilor iniţiali care se derulează în două etape: detecția urmată de împerecherea 
punctelor de interes. 


33 


34 
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Schmid, Cordelia, Mohr, Roger, Bauckhage, Christian, „Evaluation of interest point detectors”, 
International Journal of Computer Vision, 37(2):151-172, 2000. 

Otto, G, Paul, Chau, Tony K. W., „Region-growing» algorithm for matching of terrain images”, 
Image and Vision Computing, 7(2):83-94, 1989, 

Lhuillier, Maxime, Quan, Long, „Match propagation for image-based modeling and rendering”, 
IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(8): 1140-1146, 2002. 
Kannala, Juho, Brandt, Sami S., „Ouasi-dense wide baseline matching using meci propagation”, 
IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 1-8, Statele 
Unite, iunie 2007, 

Chen, Qian, Medioni, Gerard, „d volumetric stereo matching method: Application to image-based 
modeling”, in IERE Computer Society Conference on Computer Vision and Pattern Recognition, 
volume 1, pp. 1029-1034, Fort Collins, SUA, iunie 1999. 
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3.1.1 Detectarea punctelor de interes 


Prima etapă permite detectarea pixelilor din imagine care sunt a priori mai 
susceptibili decât alţii să fie imperecheati corect. Un punct de interes este un punct 
particular din imagine care posedă caracteristici interesante pentru o aplicaţie dată. 
De exemplu, punctele de interes sunt utilizate în cadrul urmăririi obiectelor într-o 
secvenţă de imagini [Parisot, 2009]'% sau în cadrul indexării [Mikolajczyk, 2002] si 
recunoaşterii imaginilor [Jurie, 2004]"°. În cazul nostru, ne referim la un punct ce 

„poate fi pus în corespondență într-o manieră credibilă, adică înconjurat de pixeli cu 
valori care prezintă variaţii ce îi caracterizează uşor. Acest lucru permite descrierea 
detaliată a unei astfel de vecinatati şi furnizarea de informaţii ajutătoare procesului de 
punere în corespondență a pixelilor. 

RAO) proprietate interesantă a detectorilor de puncte de interes este repetabi- 
litatea. Criteriul repetabilitatii [Schmid, 2000]“! este raportul dintre numărul de 
puncte de interes repetate şi numărul de puncte de interes detectate. În cazul nostru, 
un punct de interes poate fi numit repetat” dacă corespondentul său este de 

asemenea detectat ca şi punct de interes. O marjă de eroare de e pixeli este in general 

tolerată. In Fig. 17, P, şi P, sunt două puncte ale scenei şi proiecţiile lui P, au fost 
detectate ca şi puncte de interes în imaginea stânga şi în imaginea dreapta (încercuite 
cu negru). Punctul din imaginea stânga care este proiecția lui P, este repetat în 

"imaginea dreapta, contrar proiecției lui P}. Cercurile de rază g denotă o marjă de 

„toleranță asupra erorii de detectare în considerarea unui punct ca fiind repetat sau nu. 

e exemplu, dacă un punct de interes ar fi fost prezent în cercul marcat cu 

circumferință continuă, atunci am fi considerat proiecția lui P, ca repetată. Detectorii 
de puncte de interes sunt utilizați pentru proprietăţile lor de robustete in fata 
diferitelor transformări fotometrice şi geometrice (punctele de interes sunt repetate în 
pofida prezenței acestor transformări între cele două imagini). Aceste transformări 
geometrice nu apar în mod obişnuit în contextul în care discutăm (cele două camere 
de luat vederi nu sunt poziţionate prea îndepărtat una de cealaltă). Problemele 

dominante cu care suntem confruntati sunt cele de obstructie şi discontinuitate a 

profunzimii. 
În [Tuytelaars, 2008], diferitii detectori de puncte de interes sunt clasificati 
după tipul de punct de interes căutat: 


2 Parisot, Pascaline, „Suivi d'objets dans les séquences d'images de scènes deformables: de 


l'importance des points d'intérêt et du maillage 2D”, Teză de doctorat, Universitatea din Toulouse, 
ianuarie 2009, 

2 Mikolajezyk, Krystian, „Detection of local features invariant to affine transformations. Application 
to matching and recognition”, Teză de doctorat, Institut National Polytechnique de Grenoble, iunie 
2002, și 

40 Jurie, Frédéric, Schmid, Cordelia, „Scale-invariant shape features for recognition of object 
categorie”, în IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 
vol. 2, pp. 90-96, Washington, DC, S.U.A., iunie 2004. l 

a Schmid, Cordelia, Mohr, Roger, Bauckhage, Christian, „Evaluation of interest point detectors”, 
International Journal of Computer Vision, 37(2);151-172, 2000, 

g Tuytelaars, Tinne, Mikolajezyk, Krystian, „Local invariant feature detectors: a survey”, 
Foundations and Trends ® in Computer Graphics and Vision, 3(3):177-280, 2008. 
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Colturi — Un colt corespunde intersecţiei mai multor muchii ale unui obiect 
(jonctiuni „L”, ,,T” sau ,,Y”). Un colt detectat nu corespunde in mod necesar unui 
colt al unui obiect din scenă. Totuşi, putem presupune ca punctele de interes 
situate pe colțuri (adică la marginile obiectelor) riscă să fie aproape de rupturile 
de profunzime sau de obstructii. f T 
Blob-uri — O definiție formală a blob-ului este dată in [Lindeberg, 1993] şi 
putem să o rezumăm în felul următor: se referă la o zonă din imagine care 
înconjoară un punct (de interes) în care valorile pixelilor se detaşează net de 
valorile pixelilor din vecinătate. De exemplu, este un blob o zonă dintr-o imagine 
care se prezintă ca o pată luminoasă situată într-o zonă întunecată. In plus fata de 
centrul blob-ului, un detector de acest tip trebuie în acelaşi timp să furnizeze 


caracteristica mărimii zonei luate în considerare. 


P: 
R O Punct de interes 


| K 
EPT | yaos le 
oA ZA a au | 


a 
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pi 


Imagine - stânga Imagine - dreapta 


Fig. 17. Repetabilitatea unui detector de puncte de interes 


in [Schmid, 2000]“, diferitii detectori de puncte de interes sunt clasificate 


după tehnica de detecție: 


43 


44 


Detectori bazati pe contururi — Aceste metode detectează colţurile la nivelul 
intersectiilor contururilor sau chiar la nivelul curburilor foarte accentuate ale 
contururilor. 

Detectori bazati pe modele parametrice — Aceste metode estimează parametrii 
modelului unui colț astfel ca el să se modifice pentru a se suprapune precis pe 
imagine la nivelul punctului luat în considerare. 


Lindeberg, Tony, „Detecting salient blob-like image structures and their scales with a scale-space 
primal sketch; A method for focus-of-attention”, International Journal of Computer Vision, 
1(3):1074-1130, 1993. 

Schmid, Cordelia, Mohr, Roger, Bauckhage, Christian, „Evaluation of interest point detectors”, 
International Journal of Computer Vision, 37(2):151-172, 2000. 
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e Detectori bazaţi pe intensitate — Aceste metode calculează pentru fiecare pixel 
s N de interes”, numită răspuns, care ia în considerare valorile pixelilor 
din jur. 
Detectorii care se bazează pe intensități urmează in general următoarele etape: 
1. Calculează răspunsul pentru fiecare pixel — Acest răspuns depinde de valorile 
pixelilor din vecinătatea pixelului considerat. Se pot utiliza în calcul derivatele, 
„criteriile morfologice sau chiar entropia distribuției valorilor pixelilor. Dimen- 
siunile vecinătăților luate în considerare sunt legate de noțiunea de scală. Dacă 
ceste dimensiuni sunt fixe, se spune că detectorul este cu scală fixă. În cazul î în 


= Notăm cur funcţia care dă răspunsul: 


ey oN? > R" 
i i i 
el, G1) 


= Această funcţie poate da o singură valoare de răspuns (n = 1) în cazul 
detectorilor cu scală fixă sau poate da mai multe valori (n > 1) în cazul detectorilor 
‘multi-scala (câte o valoare pentru fiecare scală). 

Phy Selectia extremelor locale ale raspunsului — Sunt localizate extremele raspun- 
= sului. Aceste poziţii constituie puncte de interes potenţiale. 

. Post-procesare — Se referă la tehnicile care au în vedere eliminarea răspunsurilor 
false, cum ar fi aplicarea unui prag asupra valorii răspunsului, suprimarea candi- 
~ datilor situați pe contururi sau care nu respectă anumite condiții geometrice. De 
< asemenea se poate referi la tehnicile care permit o poziționare la nivelul sub- 
r  pixelilor punctelor de interes, in care caz funcţia care dă răspunsul este definită 
Ei fi pe R’ şi are valori in R°. 


= 


Scala corespunde nivelului de detaliu la care se face observatia. Cu cat este 
mai mică vecinătatea luată în considerare, cu atât se face o focalizare pe detalii 
(depinde de nivelul de zgomot); şi invers, cu o vecinătate mai extinsă, se iau în 
considerare structurile mari cu riscul de a nu lua în considerare anumite detalii. Dacă 
un detector examinează mai multe scale, răspunsul şi extremele sale sunt calculate 
într-un „Spaţiu scalat”. Se referă la o reprezentare multi-rezolutie a unei imagini la 
care, cu cât micșorăm scala, cu atât abaj detalii noi, conservând însă pe cele existente 
la scale mai mari. In [Gales, 2011] putem gasi o prezentare detaliată a mai multor 
detectori de puncte de interes, printre care detectorii cunoscuţi de genul Harris 
[Harris, 1988]%, SIFT [Lowe, 1999], SURF [Bay, 2006], SUSAN [Smith, 
1997], FAST [Rosten, 2006], şi variantele lor. 


” Gales, Guillaume, „Mise en correspondance de pixels pour la stéréovision binoculaire par 
propagation d'appariements de points d'intérêt et sondage de régions”, teză de doctorat, 
Universitatea din Toulouse, iulie 2011, 

Harris, Chris, Stephens, Mike, „A combined corner and edge detector”, în Alvey Vision 
Conference, pag, 147-151, Manchester, UK, ianuarie 1988, 

Lowe, David G., „Object recognition from local scale-invariant features”, in IEEE International 
Conference on Computer Vision, vol. 2, pp. 1150-1157, Corfu, Grecia, septembrie 1999. 
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3.1.2 Stabilirea corespondentelor punctelor de interes 


Cea de-a doua etapă permite punerea în corespondență a punctelor de interes. 
Un descriptor permite caracterizarea unui punct de interes. Ne referim la un vector 
care permite „descrierea” punctului. Acest vector poate fi compus, de exemplu, din 
nivelele de gri din vecinătatea punctului. Alţi descriptori sunt conceputi pentru a fi 
invarianti la transformările geometrice (rotaţie, schimbarea de scală, schimbarea 
perspectivei). O măsură de tip distanță permite apoi compararea descriptorilor între ei. 

Punerea în corespondență a punctelor de interes este o problemă în sine în 
domeniul analizei imaginilor pentru că ea este utilizată în aplicaţii diferite, cum ar fi 
recunoaşterea obiectelor, indexarea imaginilor sau urmărirea obiectelor în secvențe 
de imagini. Există numeroşi descriptori a căror studiu comparativ poate fi găsit în 
[Mikolajezyk, 2005]. 

În cazul stereoviziunii în care cele două imagini sunt luate din poziții apro- 
piate (small-baseline), nu există transformări geometrice importante între cele două 
imagini. În schimb, suntem confruntati cu probleme de discontinuitate a profunzimii. 
În consecință, chiar dacă nu sunt invariante la transformările geometrice, se pot 
utiliza (conform paragrafului 2.5) metodele de împerechere prin măsurarea corelatiei 
robuste a nivelelor de gri (sau de culoare). 

Cu toate acestea, punerea în corespondență a punctelor de interes diferă de o 
punere în corespondență densă la nivelul listei candidaţilor de examinat. De fapt, 
presupunem că un pixel corespondent al unui punct de interes din imaginea de refe- 
rință este, de asemenea, un punct de interes al celeilalte imagini (pentru că punctele 
de interes generate de un detector „bun” sunt repetate). Rezultatele prezentate în 
[Schmid, 2000]? au arătat că punctele de interes pot fi subiectul unei probleme de 
localizare. Aceasta se traduce prin faptul că un pixel corespondent al unui punct de 
interes din imaginea stânga poate fi un punct de interes în imaginea dreapta, dar, de 
asemenea şi unul dintre vecinii săi. O punere în corespondență a punctelor de interes 
din imaginea de referință cu punctele de interes şi vecinii lor din cealaltă imagine 
este, deci, o variantă mai potrivită decât punerea în corespondență a punctelor de 
interes doar cu punctele de interes. 

Mai mult, ne aşteptăm să găsim germeni care sunt fiabili, adică a căror 
împerechere să fie corectă, ceea ce, în mod evident, nu poate fi cunoscut „apriori”. 
Astfel, nu mai pare inutilă verificarea condiţiilor asupra împerecherilor rezultate prin 
calcul. Au fost propuse numeroase condiţii pentru a elimina împerecherile de puncte 
de interes mai puţin credibile, în special pornind de la geometria epipolară (conform 


“ Bay, Herbert, Ess, Andreas, Tuytelaars, Tinne, Gool, Luc Van, „SURF: Speeded up robust 


features”, Computer Vision and Image Understanding, | 10(3):346-359, 2006, 

Smith, Stephen M,, Brady, J. Michael, „SUSAN — a new approach to low level image processing”, 
International Journal of Computer Vision, 23(1):45—78, 1997, 

Rosten, Edward, Drummond, Tom, „Machine learning for high-speed corner detection”, in 
European Conference on Computer Vision, vol. 1, pag. 430-443, Graz, Austria, mai 2006, 
Mikolajezyk, Krystian, Schmid, Cordelia, „4 performance evaluation of local descriptors”, IEEE 
Transactions on Pattern Analysis and Machine Intelligence, 27(10):1615—1630, 2005. 

Schmid, Cordelia, Mohr, Roger, Bauckhage, Christian, „Evaluation of interest point detectors”, 
International Journal of Computer Vision, 37(2):151-172, 2000, 
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paragrafului 2.4.1). În afară de asta, se pot aplica, de asemenea, condiţiile prezentate 
în paragraful 2.4 pentru punerea în corespondență locală a pixelilor. Un studiu pri- 
vind utilizarea acestor condiţii diferite pentru punerea în corespondență a punctelor 
de interes poate fi găsit în [Vincent, 2001]”[ Zhou, 2002]*[Sur, 2010] 


3.1.3 Obţinerea unui set bun de germeni iniţiali 


at Germenii inițiali sunt constituiți dintr-un set de imperecheri care servesc ca 

punct de plecare pentru punerea in corespondenta prin propagare, este deci necesar 

ca să prezinte următoarele calități: 

e Fiabilitate — Germenii inițiali trebuie să fie corecti, adică imperecherile realizate 

„să fie reale, cu scopul de a evita propagarea prea multor erori la debutul pro- 
cesului. În practică, nu se poate şti a priori dacă împerecherile rezultate în urma 
calculului sunt corecte. 

e  Împrăştiere — Este important ca germenii să fie „judicios” plasați în imagini, 
adică într-o manieră care să permită, prin propagare, găsirea de împerecheri peste 
tot în imagini. 


Fig. 18. Germenii inițiali obţinuţi pentru perechea de imagini Conuri 


În [Gales, 2011]*, se prezintă o evaluare a metodelor de selecție a germe- 
nilor iniţiali pentru împerecherea punctelor de interes. Parametrii diferitelor metode 
de împerechere a punctelor de interes care permit satisfacerea pe cât posibilă a 
compromisului dintre fiabilitatea şi împrăştierea germenilor au fost determinaţi prin 


* Vincent, Etienne, Laganiére, Robert, „Matching feature points in stereo pairs: A comparative study 


of some matching strategies”, Machine Graphics & Vision, 10(3);237-259, 2001, 

Zhou, Ji, Shi, Jiaoying, „A robust algorithm for feature point matching”, Computer and Graphics, 

26(3):429--436, 2002, 

55 Sur, Frédéric, Noury, Nicolas, Berger, Marie-Odile, „Determining point correspondences between 
two views under geometric constraint and photometric consistency”, Raport de cercetare RR-7246, 
Institut National de Recherche en Informatique et en Automatique, INRIA, 2010, 

5% Gales, Guillaume, „Mise en correspondance de pixels pour la stéréovision binoculaire par 
propagation d'appariements de points d'intérêt et sondage de régions”, teză de doctorat, 
Universitatea din Toulouse, iulie 2011. 
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detectorul FAST sau detectorul SUSAN, 


asociate cu măsura de corelație CENSUS (sau măsura GC, mai puţin costisitoare din 
punctul de vedere al timpului de calcul), sunt un compromis bun între fiabilitate şi 
împrăştiere. Apoi se propune O combinaţie de seturi de germeni complementari 
rezultați în urma aplicării unor metode diferite şi având scopul de a obține un nou set 


care să se constituie într-un compromis şi mai bun. 
Acest set este apoi completat cu împerecheri de interes în scopul de a 


ameliora împrăştierea germenilor. Pentru aceasta, se realizează o segmentare fină a 
imaginii în regiuni de culoare omogenă prin metoda mean-shift [Comaniciu, 1997)”. 
Pentru fiecare regiune care nu conţine germeni, se realizează o căutare exhaustivă a 
corespondentilor printr-o abordare locală clasică, dar cu măsura de corelație robustă 
SMPD;. Împerecherile astfel obținute care nu respectă condiția de simetrie sunt 
eliminaţi. În sfârşit, se efectuează o ultimă etapă de validare prin realizarea unei 
segmentari mai grosiere şi prin eliminarea, înăuntrul fiecărei regiuni, a împereche- 
rilor asociate disparităţilor foarte diferite de cele ale altor împerecheri ale regiunii 
(conform [Gales, 2011] pentru detalii asupra acestei metode). Fig. 18 prezintă ger- 
menii iniţiali obţinuţi pentru perechea de imagini Conuri (Fig. 8.). 


optimizare. Rezultatele obţinute arată că 


3.2 Propagarea simultană şi propagarea secventiala 


Principiul propagarii poate fi enuntat astfel. Pentru fiecare pixel Disk. jad? 


(k,l)e IE n,/2;n,/ Die vecin al pixelului din stânga g;,a germenului considerat, 
candidaţii testati sunt cei din zona de căutare poziționată în jurul vecinului pixelului 
dreapta al acelui germen: ID ire (a,r)e E n, BIR Aaf (conform Fig. 19). 
Noile împerecheri care se stabilesc servesc apoi ca noi germeni şi procesul este 
repetat atât timp cât sunt găsite noi disparitati. 

În figura 19, perechea (g° ole a) este un germen. Ferestrele de vecinătate 


sunt marcate cu chenar negru. Pentru pixelii vecini ai lui g; jdin imaginea stânga 


(marcați cu cerculete), căutarea pixelilor corespondenți se face în vecinătatea 
vecinilor pixelului corespondent al germenului luat în considerare. Mai precis, dacă 


: s a E g È a 
luăm ca exemplu pixelul p;,, jı» zona lui de căutare (fereastră marcată cu chenar eri) 


este constituită din pixeli (q.r) e [- n,/2;n, /2]x E n,/23n, /2] „Având în vedere 
că imaginile au suferit o rectificare epipolară, zona de căutare este redusă la sub-setul 
marcat cu gri. 


57 Comaniciu, Dorin, Meer, Peter, „Robust analysis of feature spaces: color image segmentation”, in 
JERE Computer Society Conference on Computer Vision and Pattern Recognition, pp- 750-755, 
le San Juan, Porto Rico, juin 1997. 
Gales, Guillaume, „Mise en correspondance de pixels pour la stéréovision binoculaire par 
propagation d'appariements de points d'intérêt et sondage de régions”, teză de doctorat, 
Universitatea din Toulouse, iulie 2011, 
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Se disting două abordări ale propagării în funcţie de maniera în care sunt 


utilizați germenii: 


59 


Abordarea simultană — La fiecare iteratie z, toți germenii din setul G, sunt luaţi 
în considerare simultan (conform Fig. 20). Aceasta implică că disparitatea 
calculată pentru un pixel poate fi indusă de mai mulţi germeni. În acest caz, cea 
mai bună potrivire este păstrată, adică cea care dă cel mai bun scor de corelaţie şi 
care îndeplineşte şi ansamblu de condiţii impuse. Această abordare este propusă 
in [Chen, 1999)”. in figura 20, pixelii pentru care a fost deja găsit un corespon- 
dent sunt marcați cu un punct negru. Germenii luaţi în considerare sunt punctele 
negre încercuite. Pixelii albi încercuiți sunt aceia pentru care se face căutarea 
unui corespondent în cadrul iteratiei curente. În abordarea simultană, toţi ger- 
menii sunt luaţi în considerare în timpul aceleiaşi iterații. În acest exemplu, al 
iteratiei 7, se face căutarea corespondentilor pentru 16 pixeli (cerculetele albe), si 
sunt găsiți, de exemplu, doar 14 (germenii iteratiei £ + 7). 


Imagine - stânga . [magine - dreapta 
: | | 
t | | | | 
| 
i 
| 
| 
| | 
| | 
i | | 
| | 
: Ok EEE, pian s d 5 
Fig. 19. Principiul propagării: Perechea (e: j&i, p) este un germen. 
; Iteratia t : Iteratia t + 1 
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Fig, 20, Abordarea simultană a propagării 


Chen, Qian, Medioni, Gérard, „A volumetric stereo matching method; Application to image-based 
modeling”, in IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 
volume 1, pp 1029-1034, Fort Collins, SUA, iunie 1999, 
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Diferitele etape ale acestei abordări sunt prezentate prin algoritmul 2. 


1: Ge setul de germeni la iteratia ¢ 
2: M: setul de împerecheri rezultate prin calcul 
Zt 

4: G: < setul inițial de germeni 


SMEG 
6: Repetă 
IR Gu Ø 
8: Execută pentru toți pixelii din imaginea stânga care nu sunt germeni 
op construieşte zona de căutare, pornind de la toți germenii vecini şi 
făcând o reuniune a fiecărei zone de căutare dată de fiecare din 
germenii vecini (conform Fig. 19 pentru construcția unei zone 
de căutare) 
10: caută în zona de căutare candidatul care furnizează cel mai bun 
scor de corelaţie 
11: Dacă acest candidat găsit formează o pereche care îndeplinește 
un ansamblu de condiții a posteriori atunci 
12: Adaugă această pereche la M 
13: Adaugă această pereche la Gi+1 
14: Încheiere dacă 
15: Încheiere execută pentru 
16: tet+1 


17: până când Gn: = Ø 
18: Returnează M 


ALGORITMUL 2 — Abordarea simultană a propagării pentru punerea în 
corespondență a pixelilor — la fiecare iteratie, setul de germeni este luat în 
considerare în întregime pentru căutarea pixelilor corespondenți. 


Abordarea secventiala — La fiecare iteratie f, un singur germen din setul G: este 
luat în considerare (conform Fig. 1.21). Această abordare este propusă în [Otto, 
1989][Lhuillier, 2002]°'[ Zhuang, 2005]°[Kannala, 2007]°° ie 


*fCech, 2009 


% Otto, G, Paul, Chau, Tony K. W., „«Region-growing» algorithm for matching of terrain images” 
Image and Vision Computing, 7(2);83—94, 1989, 

Lhuillier, Maxime, Quan, Long, „Match propagation for image-based modeling and rendering”, 
IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(8); 1140-1146, 2002. 

Zhuang, Yong, Ma, Ma, Jun, Wei, Liu, Liu, „Progressive matching based on segmentation for 3D 
reconstruction”, in International Conference on Computer and Information Technology, PP. 575- 
579, Shangai, China, septembrie 2005. 

Kannala, Juho, Brandt, Sami S., „Quasi-dense wide baseline matching using meci propagation”, 
IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 1-8, Statele 
Unite, iunie 2007. 
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[Harvent, 2010]% „ Acel germen este selecționat pe baza unui criteriu predefinit şi 
împerecherile găsite nu mai sunt puse sub semnul întrebării după aceea. Această 
Erei permite algoritmului să propage mai puține erori atunci când există un 
_ germen eronat, pentru că acesta nu este a priori ales cu prioritate de criteriul de 
„selecție, care serveşte la tratarea în primul rând a germenilor „mai buni”. În 
„ [Lhuillier, 2002]% [Cech, 2009]”, autorii selecționează germenii la fiecare 
iteraţie după scorul de corelaţie cel mai ridicat. În [Otto, 1989]%, cea mai mare 
valoare proprie a matricei de covarianță obținută pornind de la disparitatile 
"estimate este utilizată drept criteriu de selecţie a germenilor. Conform autorilor, 
aceasta valoare este reprezentativă pentru ordinul de mărime a erorii comise 
(metoda lor se aplică la imagini de terenuri cu puţine discontinuități de pro- 
es În [Kannala, 2007], autorii reiau modelul din [Lhuillier, 2002]”° şi îl 
xtind la cuplurile de imagini acele baseline, adică preluate din poziţii relative 
îndepărtate, ținând cont de transformările afine locale ale valorilor pixelilor 
datorate perspectivei (conform paragrafului 2.6.2). De aceea, autorii calculează 
i germenii prin imperecheri de puncte de interes pentru care utilizează detectorul 
‘Harris-Affine [Mikolajezyk, 2004]’! care permite calculul parametrilor „regiunii 
afine” pe care o putem reprezenta printr-o elipsă care depinde de distribuția 
© nivelelor de gri din vecinătate. Transformarea între elipsa rezultată pentru pixelul 
stânga al germenului luat în considerare şi cea rezultată pentru pixelul cores- 
pondent permite estimarea transformării afine locale şi deci adaptarea ferestrei de 
corelaţie în consecință. Diferitele etape ale abordării secvențiale sunt prezentate 
în cadrul algoritmului 3. Transformarea ferestrei de corelaţie este, de asemenea, 
luată în considerare în [Harvent, 2010)”. 


În abordarea simultană, la o iteratie t, ordinea în care germenii sunt selectio- 
nati nu influenţează rezultatul. Totuşi, dacă se efectuează o împerechere eronată, acea 
eroare riscă să se propage în cadrul iteratiilor următoare. Abordarea secventiala 
permite limitarea propagării erorilor prin tratarea cu prioritate a germenilor care sunt 
a priori cei mai de încredere. Cu toate acestea, dacă se alege greşit criteriul de 
selecţie, riscul este de a considera de încredere germeni eronati şi deci, de a propaga 
mai multe erori. 


Cech, Jan, „Accurate and Robust Stereoscopic Matching in Efficient Algorithms”, teză de doctorat, 
Universitatea Tehnică din Praga, Cehia, februarie 2009. 

Harvent, Jacques, „Mesures de formes par correlation multi-images: application a l'inspection de 
pieces aeronautiques a l'aide d'un systeme multi-cameras”, teză de doctorat, Universitatea din 
Toulouse, noiembrie 2010, 

Idem 60, 

7 Idem 63, 

Otto, G, Paul, Chau, Tony K. W., ,,«Region-growing» algorithm for matching of terrain images”, 
Image and Vision Computing, 7(2):83-94, 1989, 

® Idem 62, 

™ Idem 60, 

Mikolajezyk, Krystian, Schmid, Cordelia, „Scale & affine invariant interest point detectors”, 
International Journal of Computer Vision, 60(1):63-86, 2004. 

Idem 64. 
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Iteratia t Iteratia t+ 1 


Fig. 21. Abordarea secvențială a propagării — un singur germen este selecționat 
în timpul unei aceleiaşi iterații (marcajele pixelilor sunt aceleaşi ca şi în Fig. 20) 


1: G: < setul iniţial de germeni 
2:M< G: 
3: Repeta 
: selecționează germenul g din G care satisface cel mai bine criteriul de 
_selectie predefinit 
G-—G\g 
Execută pentru toți pixelii neimperecheati din vecinătatea germenului g 
considerat 
cauta in zona de cautare definita de germenul si pixelul curent 
candidatul care furnizeaza cel mai bun scor de corelatie 
Dacă acest candidat găsit formează o pereche care îndeplineşte 
un ansamblu de condiţii a posteriori atunci 
Adaugă această pereche la M 
Adaugă această pereche la G 
Încheiere dacă 
Încheiere execută pentru 
13: până când G= Ø 
14: Returnează M 


ALGORITMUL 3 — Abordarea secventiala a propagării pentru punerea in corespon- 
denta a pixelilor 


Algoritmul 3 prezintă abordarea secventiala a propagării pentru punerea in 
corespondenţă a pixelilor: la fiecare iteratie, un singur germen este luat in conside- 
rare. Acesta este selectionat pe baza unui criteriu predefinit cu scopul de a propaga in 
primul rând germenii „cei mai buni”. 
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3.3 Condiţii pentru propagare 


Unul dintre inconvenientele metodelor cu propagare este riscul de a propaga 
erori pornind de la germeni incorecti. Este posibil să se limiteze acest efect utilizând 
condiţii care previn propagarea atâta timp cât împerecherile realizate sunt considerate 

de mică încredere. 

e Condiţia de omogenitate — are ca scop de a preveni propagarea în zonele omo- 
„gene sau prea puţin texturate pentru care lipsa informaţiilor nu permite găsirea 
„unor împerecheri într-o manieră credibilă cu o metodă locală [Lhuillier, 20027”. 
„ Propagarea unui germen este stopată atât timp cât cei patru pixeli vecini ai acelui 


germen au valori apropiate, adică atunci când: 
hp:,)= maxz (i+ k gedi iT }}< t, (32) 
„unde /, e R este un prag şi (k,1 )e {(1,0), (- 1,0), (0,1), (0,-1)}. 

O. Condiţia de regiune — presupune că, aproape peste tot, pixelii vecini care au 
valori apropiate sunt proiecţii ale punctelor de pe aceeaşi suprafață şi au dispa- 

itati apropiate. Presupunem atunci că discontinuităţile de profunzime coincid cu 

ontururile regiunilor formate din pixelii de valori omogene. Astfel, această con- 

_ ditie permite evitarea propagării unor disparitati eronate în exteriorul regiunilor. 

În Fig. 22, căutarea corespondentilor vecinilor (cerculete) pixelului stânga gi j 


. . oe A Es . . d 
(cu negru) care aparține regiunii R,, se face în vecinătatea pixelului dreapta g; ;; 


şi zona de căutare (cu gri) se limitează la pixelii care aparţin aceleiaşi regiuni ca 
şi pixelul dreapta al germenului. În acest exemplu, pixelii regiunii Rz’ sunt 


excluşi din zona de căutare a corespondentului pixelului pentru pixelul pene 


Totuşi, utilizarea condiţiei de regiune implică prezenţa inițială a cel putin unui 
germen in fiecare regiune pentru a putea găsi corespondentii pixelilor tuturor 
regiunilor. Această condiție este utilizată în [Zhuang, 2005]. 


3.4 Îmbunătăţirea propagării 


Lucrările descrise în [Chambon, 2011]” au arătat că măsurile de corelație 
robuste la discontinuitatile de profunzime dau rezultate bune în acele zone, dar, de 
asemenea, că, în zonele fără dificultate, ele sunt mai puţin performante decât măsu- 
rile de corelaţie clasice. În consecinţă, cu scopul de a combina avantajele diferitelor 


® Lhuillier, Maxime, Quan, Long, „March propagation for image-based modeling and rendering”, 


IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(8); 1140-1146, 2002. 

Zhuang, Yong, Ma, Ma, Jun, Wei, Liu, Liu, „Progressive matching based on segmentation for 3D 
reconstruction”, in International Conference on Computer and Information Technology, pp. 575— 
579, Shangai, China, septembrie 2005, 

Chambon, Sylvie, Crouzil, Alain, „Similarity measures for image matching despite occlusions in 
stereo vision”, Pattern Recognition, 44:2063-2075, 2011. 
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măsuri de corelaţie, a fost propusă în [Gales, 201 ye o tehnică de punere în 
corespondență prin propagare multi-măsură. Ideea constă în iniţierea prin propagarea 
germenilor, care a priori nu sunt situaţi în zonele de discontinuitate de profunzime, 
cu o măsură de corelaţie clasică şi de a utiliza, asupra scorului de corelație, o condiţie 
de prag strict pentru a opri propagare de îndată ce vecinatatile corespondentilor diferă 
putin. Presupunem apoi că pixelii rămaşi de împerecheat sunt situaţi în zonele 
apropiate de discontinuitatile de profunzime şi utilizăm o măsură de corelație robustă 
pentru a continua propagarea. Prin adaptarea măsurii de corelaţie la context, se obțin 
rezultate mai dense decât în cazul unei singure măsuri fără să scadă procentajul 
împerecherilor corecte. În plus, tehnica multi-măsură se poate adapta la fel de bine 
abordării simultane ca şi abordării secvențiale a punerii în corespondență prin 
propagare germenilor. 


Imagine - stânga , Imagine - dreapta 


Fig. 22. Condiţia de regiune 


În cadrul abordării locale clasice, o idee similară a fost propusă în [Chambon, 
2011(b)]'”. Sunt calculate independent două hărți de disparitate prin utilizarea a două 
măsuri de corelaţie diferite, o măsură clasică şi o măsură robustă. Disparitatile finale 
sunt în obţinute prin fuzionarea celor două hărți. 

În abordarea secvenţială (conform algoritmului 3), la fiecare iteratie, „cel mai 
bun” germen trebuie să fie selecționat pentru a limita propagarea erorilor. În general, 
o măsură de corelaţie este utilizată ca şi criteriu de selecție. O măsură de fiabilitate 
mai completă a fost propusă în [Gales, 2012]'5. Această măsură este calculată după 
propagarea unui germen şi este constituită dintr-un termen de ambiguitate, care este 
calculat pornind de la măsura de corelaţie a gradientilor (conform ecuaţiei 26), dintr-un 
termen de continuitate, care permite diminuarea influenţei pixelilor candidaţi prea 
îndepărtați de germen, şi dintr-un termen de consistență a culorilor, care favorizează 


6 Gales, Guillaume, „Mise en correspondance de pixels pour la stéréovision binoculaire par 


propagation d’appariements de points d'intérêt et sondage de régions”, teză de doctorat, 
Universitatea din Toulouse, iulie 2011, 

Chambon, Sylvie, Crouzil, Alain, ,,Combination of correlation measures for dense stereo 
matching”, in International Conference on Computer Vision Theory and Applications, material 
electronic, Algarve, Portugal, martie 2011(b). 

Gales, Guillaume, Chambon, Sylvie, Crouzil, Alain, McDonald, John, „Reliability measure for 
propagation-based stereo matching”, în Workshop on Image Analysis for Multimedia Interactive 
Services, Dublin City University, Irlanda, mai 2012. 
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pixelii a căror culoare este apropiată de cea a germenului. Fig. 23 prezintă harta de 
disparitati obținute prin propagare în cazul perechii de imagini Conuri cu această 
măsură de fiabilitate. 


Fig. 23. Harta disparitatilor perechii de imagini Conuri obținută prin 
propagarea cu o măsură de fiabiliate. 


4. Metode globale 


În contradicție cu metodele locale care tin cont doar de vecinătatea fiecărui 
pixel, metodele globale încearcă să minimizeze un cost care evaluează eroarea 
globală de punere în corespondență, adică ținând cont de totalitatea imaginii. Se 
propune deci găsirea funcţiei de corespondență m care minimizează eroarea globală 
de punere în corespondență. Această eroare este cuantificată printr-o funcţie de cost 
care integrează un termen de asociere între date, deci care face verificarea că valorile 
celor doi pixeli corespondenți sunt apropiate, şi un termen de netezire, care permite 
asigurarea condiţiei limitei gradientului de disparitate. În Fig. 24, harta disparitatii 
este inifializata şi apoi actualizată atât timp cât costul global al erorii de punere în 
corespondență, evaluat între necunoscute (harta de disparitate) şi datele observate 
(imaginile stânga şi dreapta), nu este considerat ca minim. În Fig. 25 se prezintă 
evoluția hărții de disparităţi a perechii de imagini Conuri în timpul procesului de 
punere în corespondenţă globală. Acest cost poate fi evaluat, deoarece, dacă harta de 
disparitate este corectă, atunci dacă se transformă imaginea stânga în funcție de 
aceste disparitafi, trebuie să obţinem imaginea dreapta, 
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Imagine - stânga Imagine - dreapta Harta de disparitate 


Initializare 


= 
Evaluarea haărţii curente 


Cost global 


Stop Actualizare 


Fig. 24. Principiul metodelor globale 


Fig. 25. Evoluţia hărții de disparitate a perechii de imagini Conuri în 
timpul procesului de punere în corespondenţă globală (iteraţiile 0, 2, 20 şi 98) 


4.1 Modelarea problemei cu câmpuri Markov 


Problema punerii în corespondență stereoscopică poate fi modelată cu 
ajutorul câmpurilor Markov, ceea ce permite demonstrarea faptului că această pro- 
blemă se poate rezolva prin minimizarea unei funcţii de cost cu ajutorul metodelor de 
optimizare specifice [Geman, 1984)” [ Szeliski, 1990]% [Li, 1994]! [Freeman, 
2000)” [Veksler, 1999] [Sun, 2002]. 


7 Geman, Stuart, Geman, Donald, „Stochastic relaxation, Gibbs distribution, and the bayesian 
restoration of images”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 6(6):721- 
741, 1984, 
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Prezentarea problemei, Problema punerii în corespondență a pixelilor poate fi 
reconsiderată ca şi o problemă de etichetare sau, în cazul imaginilor rectificate 
pentru fiecare pixel, se doreşte a fi atribuită o valoare de disparitate (eticheta). Astfel, 
dacă imaginea prelucrată este constituită din hw pixeli, şi dacă numărul de valori 


posibile ale disparităţii este e, atunci există e” configurații posibile. 


> 


Notatii, În cele ce urmează se vor utiliza următoarele notații: 


E Valorile pixelilor sunt reprezentate printr-un set de n = hw variabile aleatoare 
VEKK, Y}. 

m Valorile Y,ie fl, n| sunt notate cu y,. 

E Notim cu y o configurație a Y . 

n Disparitățile sunt reprezentate printr-un set de variabile aleatoare 
Reet X,.K ,X,}. 

= 


Valorile X, sunt notate cu x,. 
Notăm cu y o configuraţie a X . 
Notăm cu Y setul de configurații posibile pentru x(x e y). 


Valorile variabilelor Y, fiind cunoscute, avem deci o configurație dată 7. 
Necunoscuta problemei este configurația cea mai probabilă y a disparitatilor dacă se 


A A 

cunoaşte 7; o notăm cu y. Deci soluţia este configurația y pentru care 

Í probabilitatea P(z\y) este maxima: 

y = arg max play) (33) 
x 


Aceasta este ceea ce numim maximum a posteriori (MAP). Conform 
teoremei lui Bayes, ecuaţia (33) poate fi rescrisă astfel: 


u SEFA „ . c 
* Szeliski, Richard, „Bayesian modeling of uncertainty in low-level vision”, International Journal of 

Computer Vision, 5(3):271-302, decembrie 1990. 

e BI 


Li, Stan Z., „Markov random field models in computer vision”, în European Conference on 
1, Computer Vision, vol, 2, pp. 361-370, Stockholm, Suedia, mai 1994, 

2 Freeman, William. T., Pasztor, Egon C., Carmichael, Owen T., „Learning low-level vision”, 
International Journal of Computer Vision, 40(1):25—47, 2000, 
Veksler, Olga, „Eficient Graph-Based Energy Minimization Methods in Computer Vision”, teză de 

doctorat, Cornell University, Ithaca, NY, S.U.A., august 1999, i 

in % Sun, Jian, Shum, Heung-Yeung, Zheng, Nan-Ning, „Stereo matching using belief propagation”, in 
= European Conference on Computer Vision, pp. 450-452, Copenhaga, Danemarca, mai 2002. 
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(34) 


Z =arg max Plr\x)r(x) 


Prin definiţie, graful care reprezintă variabilele aleatoare ale X constituie un 
câmp Markov pentru că el îndeplineşte proprietăţile următoare: 


p(x)>0 yyeY¥ 
ae Zi i)= plx|x,) X,e N$, (35) 


unde Ny, este setul de variabile aleatoare 4-vecini a lui X; in graf (conform F ig. 26). 


Altfel spus, starea unei variabile aleatoare nu poate depinde decât de starea vecinilor 


săi direcți. 
Pentru un câmp Markov, este apoi posibil să se calculeze probabilitatea unei 
configurații Y grație teoremei Hammersley-Clifford care arată echivalenta unui 


câmp Markov cu câmpul lui Gibbs, de unde probabilitatea unei configurații 7: 


P(z)= Lan- î D (x,.x, ) (36) 


unde N conţine mulțimea tuturor cuplurilor vecine două câte două în graf, unde z este 
un termen de normalizare şi unde V este o funcţie care cuantifică variaţia valorilor x, 


şi x4: 
V:R? >R 
(n)a Vlera) 


Având determinată p(z). pentru a putea calcula y conform ecuației (34), 


(37) 


rămâne de determinat p(7] z). Este un termen care cuantifică probabilitatea de a 


obține valoarea unui pixel dacă se cunoaşte disparitatea sa. Acesta nu se poate 
calcula direct. În schimb, dacă valoarea disparitatii este corectă, ar trebui să găsim în 
cealaltă imagine un pixel de valoare apropiată. Calculând diferența dintre valorile 
celor doi pixeli, se obţine un scor invers proporțional cu ceea ce dorim să cuantizăm. 
Se poate deci scrie: 


plz) of 2 D(x, } (38) 


pP 


unde & semnifică faptul că cei doi termeni sunt proporționali şi D este o funcție care, 
pornind de la o disparitate estimată, cuantifică similaritatea dintre cei doi pixeli 
presupuși corespondenți: 

D:R>R 

X, OL D(x,) 
in consecință, pornind de la ecuaţiile (34), (36) şi (38), avem: 


(39) 
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i coace SS tie do 
4 x ba 


N 


E(z)= > Dlz,)+ rlx). (41) 
Xpex eX 


N 


Z 
F Modelul construit poate fi reprezentat printr-un graf (conform Fig. 26). 
oa Cerculetele reprezintă variabilele aleatoare. Fiecărui cerculet negru care corespunde 


„unei variabile aleatoare Y, e Y (ea reprezintă o valoare dată observată) i se asociază o 
„variabilă aleatoare X, e X (aceasta reprezintă necunoscuta). În plus, există legături 
între X, e X vecini care impun ca valorile variabilelor aleatoare a doi vecini să nu 


fie prea diferite. Variabilele aleatoare X constituie un câmp Markov pentru că ele 
sunt legate, dar fiecare nu poate depinde decât de vecinii săi direcți, cum este cazul, 
de exemplu, variabilei aleatoare marcată cu gri închis a cărei stări nu poate depinde 
decât de cele marcate cu gri deschis. 


| i Fig. 26. Modelarea problemei cu ajutorul câmpurilor Markov 


f 
pi 
| 

Fe 
log 
E! 
E: 
i 


4.2 Funcţii de cost 


Funcţia de cost care exprimă eroarea globală de punere în corespondență 
trebuie să aibă aceeaşi formă ca şi funcția dată de ecuaţia (41) în care fiecare 
variabilă aleatoare din X corespunde disparitatii asociate unui pixel. In felul acesta 
putem considera că o configuraţie Y poate fi reprezentată printr-o funcție de 
disparitate d. Pe de altă parte, datele observate, adică valorile variabilelor aleatoare 
din Y , corespund valorilor pixelilor din cele două imagini. În consecinţă, se poate 
rescrie funcţia de cost (41) în maniera următoare: 


lS 


E(z)= SDlx,) + pike) 


ola Xp eX pig N 
hel w-l hel wel 3 5 
DS) Caeaee a ) ALIS (a, deja ) 
1=0 jad 1-0 J=0 kd ( 42) 


| cu (k,1)e {(1,0),C 1,0), (0,1), (0,-1)} şi unde parametrul 4€ R permite reglarea 


influenței termenului de netezire față de termenul de asociere la date. 
e Termenul de asociere de date — este definit prin: 


G 


atasament 


d;a C 


atasament 


:R>R 
(a; 


ij 


(43) 


Acesta evaluează potrivirea între disparitatile date de funcția de disparitate şi 
datele observate. 

El corespunde în general unei măsuri de corelaţie între valorile pixelilor din 
imaginea de referință şi valorile pixelilor corespondenți date de disparitatile estimate. 
Unele metode utilizează suma costurilor locale. În plus, acest termen poate să includă 
un termen de constrângere. Condiţia cea mai des utilizată se referă la acoperiri. Sunt 
penalizati pixelii presupuşi acoperiți cu o valoare constantă predefinită aa În 


[Wang, 2008] [Bleyer, 2010], termenul de acoperire este dat de: 


4 Arce dacă p,, este presupus acoperit 
CAE 3 Pi; p p p (44) 
0 daca nu. 
e Termenul de netezire — acest termen este definit de: 
C,:R? OR 
s cae: (45) 
ip dir ju a C, (a:, > ik jt ) 


Acesta asigura disparitati apropiate pentru pixelii vecini, ceea ce este cazul 
aproape peste tot, mai puţin la nivelul discontinuitatilor de profunzime. Modelele 
funcţiei de netezire care sunt cel mai mult utilizate în problemele de punere in 
corespondență a pixelilor sunt in special cele prezentate în [Veksler, 1999]: 


85 5 A ; 
Wang, Zeng-Fu, Zheng, Zhi-Gang, „A region based Stereo matching algorithm using cooperative 


optimization’, in IEEE Computer Society Conference on Com isi i cogniti 
A £ puter Vision and Pattern Recognition, 

pp. 1-8, Anchorage, AK, S.U.A., iunie 2008. E 
hee Bae Eaey Romer, Carsten, Kohli, Pushmeet, „Surface stereo with soft segmentation”, în 

= Computer Society Conference on Computer Vision and Pattern Re iti 1570-1577, 
San Francisco, CA, S.U.A., iunie 2010, we 
Veksler, Olga, „Efficient Graph-Based Energy Minimization Methods in Computer Vision”, teză de 
doctorat, Cornell University, Ithaca, NY, S.U.A., august 1999, 
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(a) (b) 
Ca(digs diky) Ca(dijs disk 3) 


dij — di+k j+ dij — ditk j+ 


(e) 
Ca (dijs dir) 


dig — dirk itt 


Fig. 27. Modele de funcţii de netezire — (a) modelul liniar, 
(b) modelul liniar trunchiat şi (c) modelul constant pe porțiuni 


o Modelul liniar — o funcţie liniară este utilizată pentru a măsura variația 
disparitatii între doi pixeli vecini: 


Cp, (a, d, = la, -d 


i,j? T i+k,j+l i+k,j+l 


(46) 


cu (k,/ ) e {(1,0), (- 1,0), (0,1), (0,-1)}. Acest model tine cont de discontinuitatile 

de profunzime şi induce o netezire a întregii hărți de disparitate. 

o Modelul liniar trunchiat — pentru a evita penalizarea exagerată a costului 
global la nivelul discontinuitatilor de profunzime, se poate utiliza modelul 
liniar trunchiat: 


d.-d,, 
| k a dacă nu. 


dacă la, -d 


i,j i+k,j+l 


SA (47) 


unde 4, € R este un prag (conform Fig. 27). 
o Modelul cuadratic trunchiat — este o alternativă la modelul liniar: 


oe. Gi) a dacă (arre ey 
GAG raman) = g tal PE g hasu) < 1 (48) 


o Modelul constant pe porțiuni — acest model nu impune nicio penalitate 
pentru variațiile mici ale disparității între doi vecini: 
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0 daca d, EAN 
A dacă nu. 


C, (a, isk jel ) = <A (49) 


4.3 Metode de optimizare 


După ce a fost definită o funcție de cost (42), trebuie să fie găsită funcția de 


disparitate d, care furnizează costul cel mai mic. Dacă considerăm un număr fix e de 


valori de disparitate posibile, atunci există e” configurații posibile. În practică, o 
căutare exhaustivă nu este posibilă pentru că spațiul soluţiilor este mult prea mare. 


Metodele de optimizare sunt instrumente care permit găsirea minimului (sau 


maximului) global al unei funcții sau poate a unei soluţii apropiate de minimul 
căutat. Pentru problemele de minimizare a unei funcţii de cost în cazul punerii în 
corespondență a pixelilor, printre cele mai utilizate metode de optimizare se află 
propagarea încrederii, tăietura grafului, simulated annealing, algoritmii genetici şi 
propagarea dinamică. 
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Propagarea încrederii — propagarea încrederii este un algoritm introdus în 
[Pearl, 1982]** care permite deducerea, pornind de la un câmp Markov, a legii 
marginale în fiecare nod al grafului. Utilizarea sa pentru problema de punere în 
corespondență a pixelilor a fost introdusă în [Sun, 2002]* şi este de asemenea 
utilizată în [Klaus, 2006]” [Yang, 2009]! [Xu, 2008]? [Yang, 2008) [Sun, 
2005]” [Zitnick, 2007] [Taguchi, 2008]. Această metodă constă in deter. 
minarea pentru fiecare pixel a densităţii disparitatii şi in selectionarea valorii 
celei mai probabile. Pentru aceasta se utilizează un algoritm iterativ. La fiecare 
iteratie, pixelii vecini schimbă mesaje, sub forma unor vectori de dimensiuni 


Pearl, Judea, „Reverend Bayes on inference engines: A distributed hierarchical approach”, in 
National Conference on Artificial Intelligence, pag. 133-136, Pittsburgh, PA, S.U.A., august 1982. 
Sun, Jian, Shum, Heung-Yeung, Zheng, Nan-Ning, ,,Stereo matching using belief propagation”, in 
European Conference on Computer Vision, pp. 450-452, Copenhaga, Danemarca, mai 2002. 


Klaus, Aandreas, Sormann, Mario, Karner, Konrad, „Segment-based stereo matching using belief 


Propagation and a self-adapting dissimilarity measure”, in International Conference on Pattern 
Recognition, vol. 3, pp. 15-18, Hong Kong, august 2006, 

Yang, Qingxiong, Wang, Ling, Yang, Ruigang , Stewénius, Henrik, Nistér, David, „Stereo matching 
with color-weighted correlation, hierarchical belief propagation and occlusion handling”, IEEE 
Transactions on Pattern Analysis and Machine Intelligence, 3 1(3):492-504, 2009, 

Xu, Li, Jia, Jiaya, „Stereo matching: an outlier confidence approach”, în European Conference on 
Computer Vision, Vol, 4, pp. 775-787, Marsilia, Franţa, octombrie 2008. 

Yang, Qingxiong , Engels, Chris, Akbarzadeh, Amir, „Near real-time stereo for weakly-textured 
scenes”, in British Machine Vision Conference, pp. 80-87, Leeds, U.K, septembrie 2008. : 

Sun, Jian, Li, Yin, Kang, Sing B., Shum, Heung-Yeung, „Symmetric stereo matching for occlusion 
handling”, în IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 
vol, 2, pp. 399-406, San Diego, CA, S.U.A., iunie 2005, 

Zitnick, C, Lawrence, Kang, Sing B., „Stereo for image-based rende 
International Journal of Computer Vision, 75(1):49-65, 2007, 
Taguchi, Yuichi, Wiburn, Bennett, Zitnick, C, Lawrence, „Stereo reconstruction with mixed pixels 
using adaptive over-segmentation”, în IEEE Computer Society Conference on Computer Vision and 
Pattern Recognition, pp. 1-8, Anchorage, AK, S.U.A., iunie 2008, 
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egale cu numărul de valori posibile ale disparităţii. Un mesaj m; “7? de la 


iteratia ¢ între doi vecini p;, şi Piaya este dat de: 


... 


pipi C, (d, > d,)+ Cee (a,) 
e È ain Prayer Pi, (50) 
de larin tues | 4 mei CR ) 


a, 
€ 
ap 


unde d, €[duins 4s este a p-a valoare de disparitate din setul de valori 


posibile şi cu (&,7)e {(1,0),(—1,0), (0.1), (0,-1)} si 

(k r)e (1,0), (= 1,0), (0.1), (0,-1)}\ fk. 2}. După mai multe iterații, când 
modificările mesajelor sunt foarte reduse, se calculează pentru fiecare nod un 
vector numit încredere: 


M 
yore = Corera (a, ) a ie (mpi ai I e © 1) 
M 


În sfârşit, valoarea de disparitate finală este dată de: 


a 

d,, —argminb”” . (52) 

dp 

Tăietura grafului — În primul rând, problema pe care o dorim a fi rezolvată este 
reprezentată printr-un graf orientat. Există două noduri particulare: de intrare şi 
de ieşire. Este necesară determinarea unei tăieturi minimale a acestui graf, adică 
un set de arcuri astfel ca, fără aceste arcuri, să nu mai existe în cadrul grafului o 
cale între ieşire şi sursă şi astfel ca suma ponderilor arcelor tăiate să fie cât mai 
mică, ceea ce implică un flux maximal între sursă şi ieşire conform teoremei lui 
Ford şi Fulkerson [Ford, 1957]. Algoritmul lui Ford si Fulkerson permite 
determinarea fluxului maximal (conform algoritmului 4). Algoritmul 5, introdus 
în [ Veksler, 1999]%, este utilizat în special pentru calculul disparitatilor, pornind 
de la modele diferite de grafuri. Este un algoritm iterativ care se aplică unui move 
space care defineşte schimbările de configurații. De exemplu, „a — Brelabel 
move space” constă, în configurația curentă, din înlocuirea valorilor tuturor 
variabilelor de valoare a cu valoarea f. În [Veksler, 1999)” sunt propuse diferite 


Ford, Lester R. Jr., Fulkerson, Delbert R., „Æ simple algorithm for finding maximal network flows 
and an application to the hitchcock problem”, Canadian Journal of Mathematics, 9:2 10-218, 1937. 
Veksler, Olga, „Efficient Graph-Based Energy Minimization Methods in Computer Vision”, teză de 
doctorat, Cornell University, Ithaca, NY, S.U.A., august 1999, 
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modele de move space şi de grafuri pentru probleme de computer vision, printre 
care şi punerea în corespondenţă a pixelilor. Aceste modele diferă în special prin 
modelul de funcţie utilizată în cadrul termenului de netezire. În [Roy, 1999]! 
problema punerii în corespondenţă a pixelilor este formalizată pentru cazul unei 
achiziţii multi-view (mai mult de 2 camere de luat vederi) şi fără utilizarea 


condiţiei de epipolaritate. 


1: Repetă 

|2: selecționează la întâmplare un drum oarecare de la sursă la destinaţie 
(dacă ponderea unui arc este nulă, drumul nu poate fi ales). 
determină fluxul maxim /„ de-a lungul parcursului selectat. Acesta 
corespunde ponderii arcului cel mai slab. 
extrage fm} prin scădere din ponderile tuturor arcelor de pe parcursul 
considerat. 

5: până când nu mai este nici un parcurs posibil 

6: Caută tăietura minimă printre toate arcele a căror pondere este nulă. 


ALGORITMUL 4. — Algoritmul lui Ford şi Fulkerson — acesta permite găsirea 
arcelor care dau fluxul maximal şi tăietura minimală a unui graf. 


1: d)< stare iniţială oarecare 

2: C : funcție de cost 

3: ded,, d conţine rezultatul 

4: Atât timp cât „adevărat” execută 

5: găseşte configurația „vecină” minimală d, < arg min c(d’). 
F 


Configurațiile „vecine” sunt date de o funcție move space. Această 
configurație minimală este calculată prin tăietura grafului. 


Dacă C (a, )< ca atunci 


d&d, 
Dacă nu 


returnează d 
10; sfârşit dacă 
11; sfârşit atâta timp cât 


ALGORITMUL 5, — Algoritmul Veksler. 


'% Roy, Sébastien, „Stereo without epipolar line, 
of Computer Vision, 34(2-3):147-161, 1999. 
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e  Călirea simulată — „Simulated annealing” este un algoritm iterativ şi stocastic, 
adică bazat pe extrageri aleatoare (conform algoritmului 6). Este în special 
utilizată în [Park, 2007]'°'. La fiecare iteratie, o nouă configurație de disparități 
este aleasă aleator. Dacă costul acestei noi configurații este mai scăzut decât cel 
mai bun cost curent, atunci ea este acceptată. În caz contrar, ea este acceptată în 
funcţie de o anumită probabilitate care depinde de o variabilă numită tempera- 
tură, şi aceasta cu scopul de a evita ca algoritmul să nu conveargă către un mi- 
“nim local. Pe de altă parte, la fiecare iteratie, o funcţie face să scadă temperatura 

pentru ca probabilitatea de acceptare să devină din ce în ce mai scăzută. 


tare iniţială oarecare 


funcţia de disparitate curentă 


METE (d,)- (Ci (d) „ variația costului 
Dacă AC < 0 atunci 
11: accepta schimbarea 
12: daca nu 
13: acceptă schimbarea cu o probabilitate ce este în funcţie de 
temperatură 
14: sfarsit daca 
15: până la convergență 
16: returnează d, 


ALGORITMUL 6. — Algoritmul „simulated annealing” pentru minimizarea unei 
funcţii de cost a funcţiei de disparitate. Funcţia fı menține actualizată funcția de 
disparitate curentă. 


e Algoritmi genetici — Această tehnică este introdusă pentru cazul general în 
[Holland, 1975]'. Problema de rezolvat este modelată printr-o populaţie care 
regrupează o mulțime de indivizi. Fiecare individ posedă o hartă genetică, adică 
un set de proprietăţi. Indivizii cei mai bine adaptafi sunt apoi selecționați cu 


'9 Park, Joonyoung , Kim, Wonsik, Lee, Kyoung M., „Stereo matching using population based 
MCMC”, în Asian Conference on Computer Vision, vol. 2, pp. 560-569, Tokyo, Japonia, noiembrie 


2007. 
102 Holland, John H., „Adaptation in natural and artificial systems: an introductory analysis with 
yn! applications to biology, control and artificial intelligence”, MIT Press, 1975. 
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ajutorul unei funcţii de fitness şi se reproduc prin amestecarea genelor lor. Ideea 
este de a obţine noi indivizi cu cele mai bune proprietăţi ale celor doi părinți. De 
asemenea pot interveni şi mutații aleatoare. Astfel, se creează o nouă populaţie 
cu un nivel de fitness mai ridicat. Procesul este repetat până când se ajunge la 
apariția unei populaţii optimale, adică o populaţie care nu mai evoluează sau 
aproape că nu mai evoluează. In cazul punerii în corespondenţă a pixelilor, un 
individ corespunde unei functii de disparitate ale cărei proprietăţi sunt diferitele 
valori de disparitate asociate fiecărui pixel. Selecţia celor mai bune funcții de 
disparitate este bazată pe funcţia de cost global. Procesul este repetat de mai 
multe ori şi din aceasta rezultă populația „optimală”. In sfârşit, cel mai bun 
individ al populației apărute, adică cea mai bună funcţie de disparitate, este 
selecționată ca rezultat. 


DS K >d, K k stare inițială oarecare (generarea unei populații inițiale de 


k=0,K „n indivizi) 


2: Repetă 

3: selectioneaza cei mai buni m indivizi din populația D conform funcție de 
fitness 

4: încrucişează cei mai buni indivizi între ei pentru a genera o noua 
populaţie. Partitionarea genelor se face la întâmplare 

5: efectuează mutații aleatoare 


5: până când apare o populație care satisface cel mai bine criteriul de fitness 
6: returnează cel mai bun individ d al ultimei populații 


ALGORITMUL 7. — Algoritmul genetic — acest algoritm efectuează încrucișări între 
indivizi şi selectioneaza copii care satisfac cel mai bine funcţia de cost (fitness). 


e Programare dinamică — Această tehnică constă în calcularea pentru fiecare 
linie, a drumului care dă costul minim dintr-o matrice care listează toate costurile 
între toate împerecherile posibile ale liniei considerate. Totuşi, această tehnică nu 
ține cont de relaţiile liniilor unele cu altele. Metoda construieşte pentru fiecare 
linie a imaginii de referință o matrice care conţine toate costurile de punere în 
corespondenţă. Apoi este nevoie de găsirea unui drum în această matrice care 
minimizează funcţia de cost. 


Sone complementare se găsesc in [Scharstein, 2002]!% [Szeliski, 


103 > 4 A AF 
pay Daniel, pelle, Richard, „A taxomomy and evaluation of dense twoframe stereo 
age p k Bera gorithms » International Journal of Computer Vision, 47(1):7-42, 2002. 
zeliski, Richard, „Computer Vision: Algorithms and Applications”, Springer, 2010. 
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5. Metode bazate pe regiuni 


Conform protocolului de evaluare a lui Middlebury”, care compara meto- 
dele de punere în corespondenţă densă pentru stereoscopia binoculară, cele mai multe 
metode bine clasificate sunt bazate pe regiuni. 

„ Principiul metodelor care utilizează regiunile se bazează pe ipoteza că, într-o 
imagine, o regiune de culoare omogenă suficient de mică poate fi proiecția unei 
aceleiaşi suprafeţe a scenei şi că acea suprafață poate fi abordată printr-un model în 
spaţiul disparitatilor (de exemplu un plan sau o suprafață B-Spline) [Hong, 2004]'°° 
[Sun, 2005] [Klaus, 2006]'* [Wang, 2008]'” [Yang, 2008]'% [Yang, 2009]! 
[Taguchi, 2008]'’” [Bleyer, 2010]''*. Utilizarea acestor regiuni poate ajuta punerea în 
corespondență a regiunilor omogene şi permite, de asemenea, evitarea artefactelor la 
nivelul discontinuitatilor de profunzime. Modelul plan este relativ simplu şi asigură o 
bună aproximare, în particular pentru cele mai mici regiuni, dar poate deveni 
imprecis atunci când regiunile nu sunt proiecţiile unor fațete plane. În acest ultim 


A 


caz, modelul B-Spline poate da o aproximare mai bună. Cu toate acestea, el este mai 
complicat de configurat (ordinul şi vectorul nodal trebuie alese cu grijă) şi pot apărea 
gai importante ale rezultatului [Lin, 2003]! [ Bleyer, 2010]'””. 

Metodele bazate pe regiuni implică parcurgerea mai multor etape prezentate 


în Fig. 28 şi pe care le vom descrie în continuarea acestui capitol. 


http://vision.middlebury.edu/stereo 
Hong, Li, Chen, George, ,,Segment-based stereo matching using graph cuts”, in IEEE Computer 
Society Conference on Computer Vision and Pattern Recognition, vol. 1, pp. 74-81, Washington, 
DC, S.U.A, iunie 2004. 
Sun, Jian, Li, Yin, Kang, Sing B., Shum, Heung-Yeung, „Symmetric stereo matching for occlusion 
handling”, în IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 
vol. 2, pp. 399-406, San Diego, CA, S.U.A., iunie 2005. 
Klaus, Aandreas, Sormann, Mario, Karner, Konrad, ,,Segment-based stereo matching using belief 
propagation and a self-adapting dissimilarity measure”, in International Conference on Pattern 
Recognition, vol. 3, pp. 15-18, Hong Kong, august 2006. 
Wang, Zeng-Fu, Zheng, Zhi-Gang, „A region based stereo matching algorithm using cooperative 
optimization”, în IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 
pp. 1-8, Anchorage, AK, S.U.A., iunie 2008. 
Yang, Qingxiong , Engels, Chris, Akbarzadeh, Amir, „Near real-time stereo for weakly-textured 
scenes”, in British Machine Vision Conference, pp. 80-87, Leeds, U.K, septembrie 2008. 
Yang, Qingxiong, Wang, Ling, Yang, Ruigang, Stewenius, Henrik, Nistér, David, „Stereo matching 
with color-weighted correlation, hierarchical belief propagation and occlusion handling”, IEEE 
Transactions on Pattern Analysis and Machine Intelligence, 31(3):492-504, 2009, 
Taguchi, Yuichi, Wiburn, Bennett, Zitnick, C. Lawrence, „Stereo reconstruction with mixed pixels 
using adaptive over-segmentation”, in IEEE Computer Society Conference on Computer Vision and 
Pattern Recognition, pp. 1-8, Anchorage, AK, S.U.A., iunie 2008. 
Bleyer, Michael, Rother, Carsten, Kohli, Pushmeet, „Surface stereo with soft segmentation”, in 
IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 1570-1577, 
San Francisco, CA, S.U.A., iunie 2010, 
"4 Lin, Michael H., Tomasi, Carlo, „Surfaces with occlusions from layered stereo”, IEEE Transactions 
ROI Pattern Analysis and Machine Intelligence, 26(8):1073-1078, 2003. 
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5.1 Segmentarea imaginilor 


utilizarea unui algoritm de seg- 


iti a imaginii este obținută prin 
rent 5 ; 2004]!!° [Tremeau, 2004]'"”. Se 


mentare în regiuni de culoare omogenă [Gonzalez, 
disting două abordări: j 
seri onele de schimbare bruscă a valorilor 


e Abordarea ycontur” — Granițele dintre z ibare brus 
pixelilor, adică contururile din imagine, sunt detectate şi apoi utilizate pentru a 


delimita diferitele regiuni. À 
e Abordarea „regiune” — Pixelii vecini care se aseamănă sunt regrupati pentru a 


forma regiuni. 
Imagine - stânga Imagine - dreapta | 
| 


Punere în corespon- 


semenan denţă (mod clasic) 


Hartă de regiuni 


Estimarea parametrilor 
modelului de suprafaţă 


Harta iniţială de disparitate 


| Hartă de disparitate prin modele de suprafaţă | 


Optimizare globală 


Hartă de disparitate finală 


Fig. 28, Etapele metodelor de punere în corespondenţă a pixelilor bazate pe regiuni 


Metoda mean-shifi este cea mai utilizată în contex ii î 
fite = ate xtul punerii în corespon- 
dență a pixelilor pe bază de regiuni [Sun, 2002]''* [ Bleyer, 2005)!" [Klaus 2006)" 


116 h 
Gonzalez, Rafael C., Woods, Richard E., Eddi $ 
' 2, Eddins, Steven L., „Digital i > processù sing 
Matlab”, Pearson Prentice Hall, 2004. Egiat imaga preceasing: ushe 
Trémeau, Alain, Fernandez-Maloi "risti 
; z-Maloigne, Christine, Bonton, Pierr 5 
siti ` > a Pierre, ,,/ Ar păr Riana ie 
i sg Motan au traitement’, Dunod, 2004, mage munedrigue conten, = De 
un, Jian, $ -Ye : i N 
Ee a Dn, Houn aang Zheng, Nan-Ning, „Stereo matching using belief propagation”, în 
” Bleyer A Celene Ma Vision, pp. 450-452, Copenhaga, Danemarca, mai 2002 
, „ Gelautz, Margrit, „A layered stereo hi SRE RAE E 
segmentatio Be wi eet ee MOTRA MAIAME algorithm using image 
A A Aaa n and global visibility constraints”, ISPRS Journal of Photogrammetry and Remote 
iy 9(3);128-150, mai 2005. pol char d de 
aus, Aandreas, Sormann, Mario, Karner, Konre - 
Re Ay a y measure”, în International Confere Pattern 
cognition, vol, 3, pp, 15-18, Hong Kong, august 2006, onterence on Patte 
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(Wang, 2008)" [Yang, 2009]'” [Bleyer, 2010]'%. Spre deosebire de majoritatea 
algoritmilor de segmentare, acesta nu necesită specificarea numărului de regiuni la 
începutul procesării. În particular, acest parametru ar fi dificil de determinat a prior! 
pentru că depinde în special de scenă. În plus, aproape întotdeauna este efectuată o 
sub-segmentare. Aceasta permite formarea de regiuni mici care sunt mai simplu de 
abordat de către un model plan. 


Mean-shift. Detaliem aici metoda de segmentare mean-shift propusă în [Comaniciu, 
1997], care este utilizată pe scară largă pentru probleme de punere în cores- 
pondenţă a pixelilor. Metoda prezintă avantajul că nu trebuie specificat numărul de 
regiuni ce trebuie găsite. Segmentarea este de fapt o problemă de clasificare, care 
constă în regruparea pixelilor vecini care au valori apropiate. În termeni statistici, 
problema poate fi văzută ca estimarea funcţiei de densitate a culorii pixelilor. 


Densitatea de probabilitate. Pornind de la un eşantion, adică de la un sub-set de 
observații dintre toate cazurile posibile, este posibil să fie estimată legea de probabi- 
litate în cazul discret sau funcția de probabilitate în cazul continuu. Această lege sau 
funcţie arată pentru fiecare valoare posibilă a unei variabile aleatoare X probabilitatea 
de a obține acea valoare. 

În cazul discret, probabilitatea de a obţine fiecare valoare a lui X este esti- 
mată prin raportarea numărului de apariții ale acelei valori la numărul de observații 
efectuate. 

În cazul continuu, considerăm intervalul [a; b]. O funcţie de densitate este 
definită prin: 


f:R>R af 

xa f(x) ae 
cu 

pla <x<b)= | f(x)dx (54) 


unde f(x)20şi [rae =1. 


=) 


21 Wang, Zeng-Fu, Zheng, Zhi-Gang, „A region based stereo matching algorithm using cooperative 
optimization”, în IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 
pag. 1-8, Anchorage, AK, §.U.A,, iunie 2008, 

Yang, Qingxiong, Wang, Ling, Yang, Ruigang , Stewénius, Henrik, Nistér, David, „Stereo matching 
with color-weighted correlation, hierarchical belief propagation and occlusion handling”, IEEE 
Transactions on Pattern Analysis and Machine Intelligence, 31(3):492-304, 2009, 

Bleyer, Michael, Rother, Carsten, Kohli, Pushmeet, „Surface stereo with soft segmentation”, in 
IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp. 1570-1577, 
San Francisco, CA, S.U.A, iunie 2010, 

Comaniciu, Dorin, Meer, Peter, „Robust analysis of feature spaces color image segmentation”, in 
IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pp 750-755, San 
Juan, Porto Rico, juin 1997 
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Estimarea densităţii de probabilitate, Pentru a estima o funcţie de densitate 
pornind de la un eşantion, se disting două tipuri de metode: 

j e Metodele parametrice — dacă se presupune un model pentru funcția de densitate 
(de exemplu cel gaussian), problema devine una de estimare a parametrilor 
| 

i 

| 

i 

i 

| 


acelui model; m 

e Metodele non-parametrice — dacă nu se presupune nici un model, se utilizează 
metodele non-parametrice. Este cazul metodei mean-shift în care funcţia de 
densitate este estimată utilizând o estimare la nivel de nucleu (kernel), 


Pornind de la un eşantion de n observaţii x, i = 1, «M, funcția de densitate 
estimată, notată f (x), este calculată pentru x e R uni-dimensional prin: 
$ 1< X=% 
OEA (55) 
f ) nh 2 í h ) 


unde A este un parametru de netezire şi K este nucleul utilizat (conform Fig. 29). Am 
luat în considerare nucleul lui Epanechnikov (pentru că el permite simplificarea 
problemei pentru a utiliza algoritmul mean-shift detaliat în continuare). Expresia sa 
uni-dimensională este următoarea: 


3 E 
K,(x)= = — x?) dacă |x| <1 (56) 
0 dacă nu. 


Modurile unei densități de probabilitate prin mean-shift. Modurile funcției de 


densitate, adică valorile lui x pentru care f (x) are un maxim local, corespund 
„centrelor” diferitelor clase căutate (conform Fig. 29). Calculul explicit al acestor 
moduri după calcularea funcției de densitate poate fi evitat prin utilizarea 
algoritmului mean-shift. Acest algoritm este iterativ. La fiecare iteratie sunt efectuate 
două etape: 
. pocalul mediei (mean) = Media este calculată într-o fereastră a cărei 
imensiuni rămân a fi definite. Fie x; cele n elemente incluse în fereastra centrată 
pe elementul x considerat: 


1 n 
p(x) =—) x-x b 
n 2 t (57) 
A Translatic (shift) — Elementele incluse în fereastra considerată sunt translatate 
cu media 4i x), 


————————————_ EEE a 


n A ge mai ple Jig ate apoi posibil să se demonstreze că fiecare 
4 onverge câtre modul cel mai apropiat al functiei ¢ tates 
[Comaniciu, 1997), propiat al funcției de densitate 


12 PERI i 
5 Comaniciu, Dorin, Meer, Peter, „R 
IEEE Computer Society Conferen 
San Juan, Porto Rico, juin 1997, 


obus TPI PAT Sp pre 0 1 
ei Mi Pie of fatu e spaces: color image segmentation”, în 
omputer Vision and Pattern Recognition, pp. 750-755, 
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Analogia cu problema segmentării imaginii în regiuni. Problema segmentârii 
imaginii în regiuni de culoare omogenă este similară celei de clasificare a elefanților 
din Fig. 29. Dar spaţiul de clasificare este acum de trei sau cinci dimensiuni în loc să 
fie uni-dimensional: fiecare pixel din imagine reprezintă o observaţie pentru care 
luăm în considerare localizarea spaţială, adică coordonatele pixelului din imagine, fie 
două dimensiuni, precum şi nivelul de gri sau culoarea, fie, una sau trei dimensiuni 
suplimentare (conform Fig. 30). Aceste dimensiuni nu sunt deloc comparabile (în 
particular dimensiunile spaţiale şi componentele de culoare). Totuşi, în practică, în 
loc să se recurgă la o normalizare, autorii lucrării [Comaniciu, 1997]'* au propus 
utilizarea a doi parametri, notati hi; şi #,, pentru a defini fereastra centrată pe 
elementul considerat: 

e (spatial) — corespunde dimensiunii ferestrei conform dimensiunilor spatiale; 

e h, (range) — corespunde dimensiunii ferestrei conform dimensiunilor fotometrice 

(nivel de gri sau de culoare). 


ELEFANT 2; f(e:) CLASA 


Bubble 4.0 0.55 Ci 

Géant 4.2 0.51 Cy 

Bobar 3.9 0:57 Ci 

Colonel Défense 4.1 0.54 Ci 
Tony 3.5 0.20 Ci 

Norton 5.4 0.61 Co 
Palourde 5.8 0.42 Ca 
Tantot 5.5 0.65 Co 

Yvoir 5.3 0.52 Ca 

Muffin 5.6 062 C 


(a) — Esaniion. 


Iteratia 
3 | | e- || o 
2 + RR SE * 
l aer ra in e 
| uoa ea m U 
grung 5 6 
(b) =- Functia de densitate, (c) = Mean-shéft, 


Fig, 29, Exemplu de segmentare prin mean-shifi 
În figura 29, rabelul (a) prezintă greutăţile x, (în tone) măsurate pentru zece 
elefanţi, precum şi valorile funcţiei de densitate fl) corespunzătoare, Aceste valori 
126 Idem. 
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n metoda nucleului cu nucleu lui Epanechnikov ((b) cu linie 
nucleele sunt punctate; valorile x, sunt marcate cu câte 


un punct negru pe axa absciselor). Modurile din x, = 3,94 şi din x2 = 5,52 sunt 
marcate cu o bară verticală. Astfel, elefanții a căror greutate este inferioară valorii de 
3,94 + (5,52 — 3,94)/2 = 4,73 tone (în verde în figura (b)) pot fi regrupati în clasa C;, 
iar cei a căror greutate este superioară acestei valori pot fi regrupati într-o clasă C>. 
Clasa fiecărui elefant este raportată în tabelul (a). Figura (c) demonstrează că putem 
regăsi aceste rezultate prin utilizarea algoritmului mean-shift în trei iterații. Luam, de 
exemplu, primul punct negru din stânga. Fereastra utilizată este marcată punctat. Se 
calculează media elementelor incluse în această fereastră şi acestea sunt deplasate cu 
această medie. Procesul este repetat de mai multe ori până la convergenţa spre un 
punct care corespunde modului cel mai apropiat al funcţiei de densitate. Considerăm 
apoi că punctele care au convers către un acelaşi mod aparțin unei aceleiaşi clase (sau 


regiuni). 


sunt estimate pri 
continuă, funcția de densitate; 


5.2 Initializarea disparitatilor 


O metodă clasică de punere in corespondență a pixelilor este in general 
utilizată pentru această etapă. Pe de altă parte, tehnicile prezentate anterior (utilizarea 
condiţiilor, adaptarea măsurii sau ferestrei de corelaţie la context, conform para- 
grafului 2) pot fi utilizate pentru limitarea numărului de erori [Klaus, 2006]'”” 
[Wang, 2008]! [Yang, 2009]'%. 


5.3 Estimarea parametrilor modelului de suprafata 


y Modelul plan este relativ simplu şi produce aproximări bune ale dispari- 
tafilor, in special pentru regiunile mici. Este modelul cel mai des utilizat in prezent in 
lucrările publicate, dar modelul B-Spline este, de asemenea, studiat în [Lin, 2003]: 
[Bleyer, 2010]. Parametrii modelului ales sunt de obicei estimati cu ajutorul unei 
metode de estimare robustă pornind de la disparitatile iniţiale: 


127 . r 
Bs. elanul Sormann, Mario, Karner, Konrad, ,,Segment-based stereo matching using belief 

A pagalion and a self-adapting dissimilarity measure”, în International Conference on Pattern 

Becosnition, vol, 3, pp, 15-18, Hong Kong, august 2006, 

RTE mii np hiang, „d region based stereo matching algorithm using cooperative 
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e Metoda celor mai mici pătrate aplicată iterativ — Această tehnică este utilizată în 
special în [Hong, 2004]'*. La fiecare iteratie, disparitatile iniţiale prea inde- 
părtate de modelul estimate sunt considerate ca date aberante şi sunt eliminate 
pentru a nu influenţa rezultatul. 
e RANSAC - Algoritmul RANSAC (random sample consensus) este utilizat în 
- FYang, 2008]1* [Yang, 2009]. 

Descompunerea parametrilor — Această tehnică este utilizată în [Wang, 2008] 
Klaus, 2006]'*° pentru determinarea parametrilor unui plan. Prin scrierea 
~ fanctiei planului ca şi o funcție de i şi dej: 
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d,:R°>R 
i F (58) 
l a pi+tPJ + P3 =d,; 
ep (cu n = 1,...,3) sunt parametrii căutați. Autorii remarcă faptul că: 
ca, sh cai i e, 
KA MCA p3=d,j Pi- Pol - (59) 


Lc, aj 
Astfel, p; (respectiv p2), sunt estimati luând toate perechile de pixeli posibile 
urmărind liniile (respectiv coloanele) pentru a estima derivatele, fiecare pereche 
producând o estimare pentru parametrul considerat. Se construieşte apoi o histo- 
gramă a acestor estimări, care după aceea este netezită cu un nucleu gaussian. 
Valoarea care corespunde maximului acestei histograme este valoarea căutată pentru 
parametru. În sfârşit, un proces asemănător este utilizat pentru găsirea p; pornind de 


la setul de disparităţi iniţiale ale regiunii. 


5,4 Rafinarea rezultatelor 


O optimizare globală permite rafinarea rezultatelor. Se pot distinge urmă- 
toarele metode: 


i Hong, Li, Chen, George, „Segment-based stereo matching using graph cuts“, în IEEE Computer 
Society Conference on Computer Vision and Pattern Recognition, vol. l, pp: 74-81, Washington, 
a DC, S.U.A, iunie 2004, ; 
Yang, Qingxiong , Engels, Chris, Akbarzadeh, Amit, Near real-time stereo for weakh-textured 
scenes”, in British Machine Vision Conference, pp, 80-87, Leeds, U.K, septembrie 2008. 
4 Yang, Qingxiong, Wang, Ling, Yang, Ruigang , Stewénius, Henrik, Nistér, David, „Stereo matching 
with color-weighted correlation, hierarchical belief propagation and occlusion handling”, IEEE 
__ Transactions on Pattern Analysis and Machine Intelligence, 31(3):492-504, 2009, 
35 Wang, Zeng-Pu, Zheng, Zhi-Gang, „4 region based stereo matching algorithm using cooperative 
optimization”, în IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 


pp. 1-8, Anchorage, AK, S.U.A., iunie 2008. 
36 Klaus, Aandreas, Sormann, Mario, Karner, Konrad, ,Segment-based stereo matching using belief 


propagation and a self-adapting dissimilarity measure”, în International Conference on Pattern 
Recognition, vol. 3, pp. 15-18, Hong Kong, august 2006, 
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e Atribuirea unui plan — Diferitele plane de disparitate sunt obținute pornind de la 
modele estimate şi fiecare pixel este atribuit unuia dintre aceste planuri în aga fel 
ca un cost global asupra întregii imagini să fie optimizat. Aceasta permite corec- 
tarea anumitor erori provenite în special dintr-o segmentare necorespunzatoare. 
Această soluție este utilizată în [Hong, 2004]'” [Bleyer, 201 on unde tehnica de 
optimizare folosită este tăietura grafului şi in [Klaus, 2006] unde tehnica de 
optimizare folosită este propagarea încrederii. 

e  Rafinarea parametrilor — Parametrii modelelor, estimati în prealabil, pot fi 
rafinati prin minimizarea unui cost global. Această soluţie este în special utilizată 
în [Wang, 2008]: [Yang, 2008]! 
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Fig. 30. Spațiul de clasificare 3D — Fiecare punct negru reprezintă un pixel caracterizat prin 


coordonatele sale din imagine (i şi j) precum şi prin nivelul său de gri Z (ji if) 


a In general este utilizată culoarea, dar am utilizat nivelele de gri pentru a 
simplifica aceasta ilustratie. Fereastra mean-shift de dimensiuni (hs, hs, h,) este repre- 
zentata punctat. 


137 Fi 
Hong, Li, Chen, George, »Segment-based stereo matching using graph cuts”, în IEEE Computer 
WA Society Conf, on Computer Vision and Pattern Recogn, vol. 1, pp. 74-81, WA, DC, S.U.A, 2004. 
Hne. Pene, Rene, paer Kohli, Pushmeet, „Surface stereo with soft segmentation”, in 
EEE puter Society Conference on Computer Vision and Pattern Recognition. | 5 5 
E lume p ern Recognition, pp. 1570-1577, 


139 ; 
KJaus, Aandreas, Sormann, Mario, Karner, Konrad, „Segment-based stereo matching using belief 


pean and a self-adapting dissimilarity measure”, in International Conference on Pattern 

Seen ion, vol, 3, pp. 15-18, Hong Kong, august 2006. 

„i do Aheng Zhi-Gang, „A region based stereo matching algorithm using cooperative 

on”, în IEEE Computer Society Conference on Computer Visioi Pattern iti 

puter Vision and Pattern Recognition, 

pp. 1-8, Anchorage, AK, S.U,A,, iunie 2008, a 

a Qingxiong A Engels, Chris, Akbarzadeh, Amir, „Near real-time stereo for weakly-textured 

cenes”, în British Machine Vision Conference, pp. 80-87, Leeds, U.K, septembrie 2008. 


140 


141 


172 


> oa ma A anna 


142 


143 


l44 


145 
146 


Stabilirea corespondentelor între pixeli în stereoviziunea binoculară 


5.5 Punerea în corespondenţă a pixelilor prin sondajul regiunilor 


Punerea în corespondenţă a pixelilor prin propagare dă rezultate bune când se 
caută un compromis între rata de acceptare!” şi densitate. Cu cât rata de acceptare 
este mai ridicată, cu atât mai puţin dense sunt rezultatele. În [Gales, 2010]'” [Gales, 
2011]', se propune o abordare bazată pe un sondaj aleatoriu al regiunilor, cu scopul 
de a obține rate de acceptare ridicate dar şi rezultate dense. 

Principiul se bazează pe un proces aleator şi iterativ care calculează pentru 
fiecare pixel, pornind de la mai multe segmentări, de la o hartă iniţială de disparitati 
şi de la un model de suprafaţă, aproximări diferite ale valorii sale de disparitate. 
Fiecare aproximare constituie un vot si valoarea care obtine cele mai multe sufragii 
este selecționată ca şi disparitate finală. Această tehnică permite obținerea de rezul- 
tate satisfăcătoare fără să se recurgă la o etapă de rafinare prin optimizare globală. 

Abordarea propusă este prezentată pe scurt în Fig. 31. Diferitele etape sunt: 

e  Segmentări — Fiecare regiune de culoare omogenă este presupusă a fi proiecția 
unei aceleiaşi suprafeţe. Pixelii unei aceleiaşi regiuni au deci disparitati 
- apropiate. Metodele bazate pe regiuni utilizează în general o sub-segmentare, 
adică regiuni mici. De fapt, cu cât regiunile sunt mai mici, cu atât ele pot fi 
= aproximate cu un plan fără să se introducă o eroare mare. Cu toate acestea, cu cât 
regiunile sunt mai mici, cu atât este mai dificil să fie obținute disparitatile inițiale 
„corecte în zonele apropiate de acoperiri sau de discontinuități de profunzime. 
Metoda propusă utilizează diferite niveluri de segmentare. Segmentările mai fine 
a permit să se obțină valori de disparitate aproximate mai precise în regiunile în 
sui care pixelii au disparitati inițiale calculate de o manieră acceptabilă. Segmen- 
tările grosiere permit obţinerea de voturi în zonele dificile şi acoperite. De fapt, 
pentru pixelii situaţi în aceste zone riscul este mai mare decât la ceilalți pixeli de 
a nu avea calculată disparitatea inițială sau de a avea una eronată. Totuşi, cu cât 
segmentarea este mai grosieră, cu atât cresc şansele de a regrupa aceşti pixeli 
împreună cu cei situați în zone care nu prezintă nici o dificultate în particular şi 
pentru care disparitatea inițială este acceptabilă. Nu e mai putin adevărat că se 
creşte de asemenea riscul de a regrupa pixeli care nu aparțin unei aceleiaşi 
suprafețe (dar acest fenomen este limitat de segmentările mai fine). Rezultatele 
experimentale descrise în [Gales, 2010] [Gales, 2011]! indică faptul că 3 sau 

4 nivele de segmentare sunt necesare. 


2 Rata de acceptare este numărul de împerecheri acceptate raportat la numărul de împerecheri 
efectuate, O împerechere este acceptată dacă corespondentul găsit este situat la o distanţă inferioară 
sau egală cu 1 pixel faţă de corespondentul teoretic, 

143 Gales, Guillaume, Crouzil, Alain, Chambon, Sylvie, „A region-based randomized voting scheme for 
stereo matching”, în International Conference on Visual Computing, volume 6454 de Lecture Notes 
in Computer Science, pp 182-191, novembre 2010, 

144 Gales, Guillaume, „Mise en correspondance de pixels pour la stéréovision binoculaire par 
propagation d'appariements de points d'intérêt et sondage de régions”, teză de doctorat, 

Universitatea din Toulouse, iulie 2011. 
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Imagine - stânga Imagine - dreapta 


Punere în corespon- 


Segmeniäri denţă inițială 
Harta de regiuni 2 | --- Harta inițială de disparitate 
Sondaj 


Harta de disparitate 1| |Harta de disparitate 2 
Harta de disparitate 3| |Harta de disparitate 4 


Procedeu de fuziline 


fă Harta finală de disparitate “aa 


Fig. 31. Etapele punerii în corespondenţă a pixelilor prin sondarea regiunilor 


e Punerea iniţială în corespondenţă a pixelilor — Aceasta permite obținerea unei 
hărți de disparitate care este utilizată pentru calcularea parametrilor diferitelor 
plane pentru fiecare regiune. Această hartă trebuie să prezinte a priori un 
compromis bun între densitate şi rata de acceptare. Densitatea ridicată permite 
mai multe disparitati pentru sondaj şi un număr mai important de voturi. O rată 
de acceptare ridicată permite reducerea numărului de voturi, conducând la 
rezultate eronate. In [Gales, 2010]! [Gales, 2011] se arată că o punere în 
corespondenţă locală cu măsura CENSUS (conf. paragrafului 2) sau o propagare 
de germeni (conf. paragrafului 3) constituie o initializare de calitate buna. 

e Sondaj — Pentru fiecare regiune a fiecărui nivel de segmentare, o tripletă de 


puncte [A i d]. ib d | li ib af} este trasă la sorți în spațiul 
disparitatilor inițiale (pixelii care nu au o disparitate iniţială calculată nu sunt 


luați în calcul la tragerea la sorți). Parametrii planului, [p, Po P3 R sunt 
apoi calculati ca; 


147 a AOA ri Lia > > 
Gales, Guillaume, Crouzil, Alain, Chambon, Sylvie, „4 region-based randomized voting scheme for 


AD) pei x ; 
stereo matching’ » in International Conference on Visual Computing, volume 6454 de Lecture Notes 
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Fig, 32. Principiul sondajului regiunilor. În coloana centrală se prezintă planele induse 
sunt (cu gri) de tripletele de puncte trase la sorți pentru o regiune reprezentând un con. Ultima 
coloană prezintă disparitatile aproximate induse de un triplet tras la sorți dintr-o regiune. 
Disparităţile eronate apar în culoare albă. 


Principiul sondajului regiunilor este ilustrat în Fig, 32 printr-un exemplu de 
regiune reprezentând un con, La fiecare tragere, 3 puncte sunt trase la sorți şi planul 
care trece prin aceste trei puncte permite calcularea unei disparități apropiate pentru 
fiecare pixel al regiunii. Harta de disparităţi obţinută este prezentată în cea de-a treia 

e for coloană unde disparităţile eronate sunt marcate cu alb. Procesul este repetat de mai 
Jotes multe ori pentru fiecare regiune ale dif 
tragere, o mare parte din disparităţii 


eritelor seamentări. Se constată că la fiecare 
e aproximate sunt corecte. Ideea este de a 
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combina diferitele hărţi aproximate pentru a obţine harta finală de disparitate. Pe 
urmă, fiecare pixel aparţinând regiunii primeşte un vot pentru disparitate, dat de: 


V, = Pk + Pol + Ps (61) 


unde v, este valoarea de disparitate a celui de-al n-lea vot pentru pixelul de coordo- 
nate lk iy _ Procesul este repetat de m ori pentru a obţine m voturi. Rezultatele 


raportate în [Gales, 2010] [Gales, 201 1]!50 arată că cel putin 25 de trageri la sorți 
sunt necesare. Tragerea la sorți poate fi realizată într-o manieră; 
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o Uniformă — Toţi tripletii au aceeaşi probabilitate de a fi traşi la sorți. 
© Partinitoare — O valoare de încredere este calculată pentru fiecare triplet. 
Această valoare determină probabilitatea de acceptare a fiecărui punct. Aceasta 
permite limitarea numărului de selecții ale tripletilor care contin un punct a cărui 
disparitate inițială este eronată. Măsura de încredere, notată ct, a fiecărui pixel 
depinde de similaritatea fiecărui pixel şi de cea a vecinilor săi cu pixelii lor 
corespondenți estimati: 


ct: N? >R 
Tae itk 3 i+k 4 
Rai, 
Vitel FHT + ding ji (62) 


i k=-rl=-r 
„|| Gh ie 
i | z 


unde r stabileşte dimensiunile vecinatatii considerate, z este un termen de norma- 
lizare şi p este o pondere. Cu cât p este mai ridicat, cu atât tragerea este mai 
părtinitoare în favoarea pixelilor care au valorile de confidenta cele mai ridicate. 
Nu e mai putin adevărat că, dacă p este prea ridicat, există tot timpul riscul de a 
trage la sorți aceiaşi tripleti. Rezultatele prezentate în [Gales, 2010]!* [Gales, 
2011]'% arată că tragerea la sorți părtinitoare cu p = 10 dă cele mai bune 
rezultate. 

Fuziune — În sfârşit, pentru fiecare pixel se atribuie ca valoare de disparitate 
valoarea care a obținut cel mai multe voturi. Pentru a calcula această valoare, şi 
pentru a avea o disparitate cu precizie de sub-pixel, ea este estimată prin exami- 


Coe, similia, Crouzil, Alain, Chambon, Sylvie, „4 region-based randomized voting scheme for 
slereo matening In International Conference on Visual Computing, volume 6454 de Lecture Notes 
in Computer Science, pp. 182-191, novembre 2010, 
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narea modului principal al funcției de disparitate obținute prin estimare cu 
nucleul Epanechnikov. Este o tehnică de estimare prezentată în [Chen, 2002]'*: 


===) 

m e 

dy, argmax S a 1=|v=v,]] ] dacă lv-v,|S1 (63) 
; OLAT 0 dacă nu. 

Fuziunea este ilustrată pe ultimul rând din Fig. 32. Fig. 33 prezintă dispa- 


ritatile finale obținute pentru perechea de imagini Conuri prin sondajul regiunilor. 


AF: 


Fig. 33. Harta finală de disparitati a perechii de imagini 
Conuri obținute prin sondajul regiunilor 


Concluzie 


Obiectivul acestui capitol a fost de a descrie principalele metode de stabilire 
a corespondentelor intre pixeli in cadrul stereoviziunii binoculare. Această etapă a 
făcut obiectul foarte multor lucrări de cercetare. Este o problemă pentru care este 
dificilă identificarea unei metode generice şi satisfăcătoare pentru orice situație. 
Alegerea algoritmului depinde de mulţi factori, cum ar fi proporția tolerabilă de erori, 
densitatea rezultatului şi timpul de calcul. O aceeaşi metodă poate fi mai mult sau 
mai puţin performantă în funcție de tipul de scenă, adică de numărul de suprapuneri, 
de numărul de rupturi de profunzime sau de numărul de suprafețe putin texturate. 
Calitatea rezultatelor poate deci varia de asemenea în interiorul aceleiaşi imagini, în 
funcţie de zona considerată. 

În fata abundenței de lucrări ştiinţifice, studiile comparative s-au dovedit 
necesare. Situl web „Middlebury Stereo Vision Page”! care însoţeşte articolul 
[Scharstein, 2002]'% a fost o iniţiativă foarte interesantă care a devenit o referință 
pentru un mare număr de cercetători din domeniu. 


'5 Chen, Haifeng, Meer, Peter, „Robust computer vision through kernel density estimation”, în 
European Conference on Computer Vision, vol, 1, pp. 236-250, Copenhaga, Danemarca, mai-iunie 


14 http://vision.middlebury,edu/stereo/ 
155 Scharstein, Daniel, Szeliski, Richard, „A faxomomy and evaluation of dense twoframe stereo 
correspondence algorithms”, International Journal of Computer Vision, 47(1):7-42, 2002. 
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FLORIN ROTARU, SILVIU BEJINARIU, SIMONA PESCARU' 


ABSTRACT. First part of this chapter introduces the main 3D reconstruction 
techniques from multiple views of moving objects. There are presented affine 


reconstruction from orthographic projection methods and projective reconstruction 
techniques. While the analysed projective reconstruction technique is restricted to a 
rigid moving object the affine reconstruction part is more elaborated. There are 
discussed reconstruction techniques first for one rigid object then for two or more 
independently moving rigid objects and finally for non rigid moving, objects. In 
second part there is analysed a 3D tracking system of a mobile robot. The tracking is 
done in more successive steps: 1) feature extraction from current image; 2) 3D 
coordinates calculus by stereovision techniques of the extracted features; 3) 3D 
feature tracking in successive views, 4) current robot pose computation, expressed in 
a world coordinate system; 5)robot pose and 3D feature coordinates correction. 


KEYWORDS: multiple view reconstruction, affine projective transform, 3D tracking. 


1. Introducere 


in prima parte a capitolului sunt analizate tehnici de reconstructie din imagini 
multiple ale unor obiecte în mişcare. Sunt discutate tehnici de reconstrucție afină din 
imagini obținute în principal prin proiecție ortografică şi tehnici de reconstrucție proiectivă. 

În partea a doua sunt analizate sisteme de urmărire 3D a unui robot mobil. 
Urmărirea implică operaţiile: extragerea din imaginea curentă a trăsăturilor care vor 
fi urmărite şi în următoarele cadre, determinarea prin tehnici stereo a coordonatelor 
3D ale trăsăturilor extrase, urmărirea trăsăturilor 3D în secvența de imagini, calculul 
poziţiilor robotului într-un sistem de referință extern iar în final corectia poziţiei 
robotului si a coordonatelor 3D ale caracteristicilor scenei. 


2. Tehnici de reconstrucție afină si proiectivă din imagini multiple 


2.1. Reconstrucţie afină 


Vom începe cu o teoremă care demonstrează că o reconstrucție afină poate fi 
obținută din două proiecţii ortografice, după care vom studia problema reconstrucției 
afine pornind de la setul de n corespondențe din m imagini. 


1 7 ee ARA s; : oct ti) e 
Ai Rotaru, Silviu Bejinariu, cercetători ştiinţifici, IIT, Academia Româna, laşi, Simona Pescaru, 
hief Vision Scientist, Robotic Vision Technologies, Dynamic Ventures, Braşov, Romania. 
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Teorema 1: Din două reprezentări ortografice pentru patru puncte necoplanare 
structura afină a scenei este determinată în mod unic. 

Aşa cum se arată în figura 1 din două imagini ortografice a cinci caracte- 
ristici punctuale A, B, C, D şi P se pot reconstrui coordonatele afine ale punctului P 
în baza (A, B, C, D). 

Koenderink şi Van Doorn au demonstrat că acest lucru este posibil, plecând 
de la faptul că proiecția ortografică a unui plan pe un alt plan este o transformare 
afină. În particular, când punctul P aparţine planului TI din figura 1 care conține 
triunghiul ABC, coordonatele sale afine în planul II , format de aceste trei puncte, 
pot fi măsurate direct în oricare dintre cele două imagini II”, respectiv IJ” . 

Fie E (respectiv Q) intersecţia dreptei care trece prin punctele D şi d’ 
(respectiv P şi P') cu planul TI (figura 1). Proiectiile e" şi q" ale punctelor E şi P pe 
planul TI" au aceleaşi coordinate afine în baza (a”, b”, c”) ca şi punctele d! şi P’ 
în baza (a’,b’,c’). În plus, deoarece segmentele ED si QP sunt paralele cu prima 
direcție a proiecției, segmentele e"d” şi q”p” sunt de asemenea paralele. Se poate 


măsura raportul: 
z mon OP 
Sin QP (1) 
Gal! ED) 


unde AB reprezintă distanţa dintre punctele A şi B pentru o orientare arbitrară a 
dreptei determinată de cele două puncte. 


notează cu Se Ba) şi (a PH) coordonatele punctelor d'=e' şi p'=q' in 


=a; AB+ßB, AC+AED (2) 
= (o, -ray JAB+(B,, — 1B, JAC+2%AD 


Cu alte cuvinte, coordonatele afine ale punctului P in baza (A, B, C, D) sunt 
| (a, Any, By ABe À 
Folosind următoarele două teoreme referitoare la descompunerea SVD a 


matricelor vom analiza în continuare reconstrucția afină din m imagini pentru care 
s-au determinat m corespondențe a câte n pixeli reprezentând n puncte din spaţiul afin. 


Teorema 2: Când matricea A are rangul mai mare decât p, descompunerea SVD 
t , x . . a . ` 
UW, y este cea mai bună aproximare a lui A de rang p (în sensul normei Frobenius). 


Teorema 3: Fie a, e R"(i=1,n) n vectori care reprezintă coloanele matricei A; 
subspatiul vectorial V, de dimensiune p care minimizează eroarea pătratică medie, 


2 Jan J. Koendering, Andrea J, van Doorn, „Affine Structure from Motion”, în Journal of the Optical 


Society of America A, 8, pp. 377-385, 1991. 
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2 


hi -b,| (3) 
unde b, reprezintă proiecția ortogonală a lui a; pe Vp, este subspaţiul lui R” generat 
de coloanele lui Up. 

Pi Po Ps t 


O cameră afină având modelul P, =|Pa P22 Pz t, |vizualizează punctele 


0 0 0) 
X, = (X Yi Zi, 1) din planul proiectiv în pixelii xi=( Xi, yj,1)' astfel încât relația 
x=P,X; în coordonate omogene, exprimată în coordonate neomogene devine: 


X; 
RE Pi2 >) Y, afe] (4) 
Yi Pa Po P23 Z, t 
unde s-au folosit notatiile în coordonate neomogene x=( x, y)' pentru punctele din 
planul imaginii, X=( x, y, z) pentru punctele din spațiu, t=(t), b) pentru vectorul 


translatiilor (îi, t2, 1)'. De asemenea, notând cu P matricea 2x3 din (4), relatia 
respectivă se rescrie ca: x;=PX;+t (5) 


i , eg shal > 
Fig. 1, Construcila geometrică a coordonatelor afine ale punctului P în baza formată de 
punctele A, B, C, D. (după Forsyth şi Ponce’) 


3 
David A, F 2 ede Apă 
avid A, Forsyth, Jean Ponce, „Computer Vision, A modern approach”, Prentice Hall, 2003. 


184 


Tehnici de reconstrucţie 3D din imagini multiple 


Algoritmul de reconstrucție afină prezentat de Tomasi’ şi Hartley, 
Zissermans, de estimare a m camere afine (Mit) şi a n puncte tridimensionale Xj=( 


Xp Yi» 2) porneşte de la minimizarea distanțelor dintre pixelii estimati x= PX, +t 


şi pixeli corespondenți masurati x; : 
min Dj min DhE 6 


i Mithx; ij miti xj ii 


- În cele de mai sus m >= 2, n >= 4. Se presupune ca pixelii x; sunt vizibili în 


toate cele m imagini şi că măsurătorile sunt afectate de zgomot gaussian independent 


de medie nulă. 
Minimizarea criteriului (6) în raport cu translatiile t ale celor m sisteme afine 
| conduce la: 
O Ek ky J2 
o ext 
adică la sistemul: 
aoe SG ; ! n Le 
ee — > -(,X,+¢))= nt +P, x, - Dx, =0 (7) 
î <i j=l j=l 
Prin urmare: 
ti = Sai, yx, =<x'>-P <X> (8) 


> ia dS welled ae a 
unde s-au folosit notatiile: < x' >= -9x SESI 2x . 
na n j 
Alegând sistemul de coordonate 3D al punctelor X;=( xj, yj, Zj), j=l.n, cu 
originea în punctul <X> relația (8) se reduce la: 
ti =<x > (9) 
Rezultă că în fiecare imagine i, din totalul de m, măsurătorile pixelilor 
corespondenți se fac într-un sistem având originea în centrul de greutate al celor n 
pixeli. În criteriul (6) vom avea t = 0. Prin urmare, înlocuind în fiecare din seturile x' 


il 


valorile masurate x) cu xi -< xi >criteriul (6) se transformă în: 
E } 
min $ lki — x; [P= min X iki- P, X; I? 


Mix, i Mix, i) (10) 


2 A a sey i . . ` 
În forma matriceală relațiile FaR X, , =1,m, j=1l,n se scriu ca: 


4 Carlo Tomasi, Takeo Kanade, „Shape and motion from image streams under orthography: A 
factorization approach”, in International Journal of Computer Vision, vol 9, Issue 2, November 
: 1992, pp. 137-154. 
Richard Hartley, Andrew Zisserman, „Multiple View Geometry in Computer Vision”, Cambridge 
University Press, 2004, Second Edition. 
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dp Lu ity 
Bhs ei a 3 |) iba 
Se Adi a a caved a oa e iar (11) 
Xi Xs Xn pă 
Matricea W a măsurătorilor este: 
Hb e EREI a 
A pata) Se 
Ms (12) 
e AA 
Deoarece, din cauza erorilor de măsurare, matricea măsurătorilor nu verifică (11), 


B= Dh ul = Sk, PX, 


coloanele matricei măsurătorilor W normalizate: 


it fl 1 
VE X, 
2 2 2 
E X 
1 2 n 
E od, 
IRI 1 
SA de 


Minimizăm criteriul E (13) în funcţie de X;: 


OE 
0=—— pie, - ex) fa -PX,|=-2P'ld, - Px, 


Ceea ce înseamnă că: X, = P*d j 


. + . 

Matricea P“ este pseudo-inversa matricei P: 
pt = (P'P)! p! 

inlocuind X în expresia lui E avem: 


E =D -eraf 
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determinarea matricelor P; şi a punctelor X; se realizează prin minimizarea criteriului: 


(13) 


în raport cu P,, i=l,m_ şi vectorii Xj, jel. În relaţia de mai sus vectorii d; sunt 


(14) 


(15) 
(16) 


(17) 


(18) 


E 4 ee că matricea PP ' asociată cu un vector d din R2™ este proiecția 
ortogonală în subspatiul tridimensi 
patiul tridimensional Vp generat de coloanele lui P. Rezultă că E 
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măsoară norma diferenței dintre vectori d, şi proiecţiile lor ortogonale pe Ver 
potrivit teoremei 3, E este minimă atunci când Vp este generat de coloanele 
matricei U, obținută din cele trei coloane din stânga lui U, unde UWV' reprezintă 


minin izează criteriul E verifică relaţia Vp = Vy, astfel încât avem: P=U,. 


„descompunerea în valori singulare ale matricei D=[d,, d;.... d, ]. Matricea P care 


| Cum X, =P'd, pentru toate punctele din spaţiul afin avem: 


X=P*d -[usv,)'u: Juwv']- wsv; (19) 


A “unde, V, este o matrice 3 x n obţinută din cele trei coloane din stânga ale matricei 


a DANY 


Viar W, este o matrice 3 x 3 obținută din valorile singulare corespunzătoare. 
= În concluzie algoritmul clasic de factorizare pentru calculul reconstrucției 


afine şi a matricelor camerelor este: 
1. Se calculează descompunerea SVD a matricei măsurătorilor: d = UWV!. 


ie E 


„Se construiesc matricele U;, V, şi W, obţinute din cele trei coloane din stânga 
DEI +. A p 7 = : 

ale matricelor U „respectiv V şi submatricea corespondență 3 x 3 a lui W. 

„3. Se calculează: P = U, şi X= W,V,. 


STONA 


P ste o matrice 2 m x 3 care estimează mişcarea camerei iar X este o matrice 3 x n 
care estimează structura scenei. 
În continuare vom analiza câteva modele de proiecții (camere) afine în 
vederea trecerii de la reconstrucția afină discutată mai sus la reconstrucția euclidiană. 
Presupunem că imaginile sunt preluate de o cameră calibrată astfel încât 
punctele din imagine sunt reprezentate prin vectorii coordonatelor normalizati. Vom 
vedea că ecuaţia proiecției afine x, = P;X se aplică şi pentru aceste modele. Cu 
toate acestea, de această dată există unele constrângeri asupra componentelor 


matricei de proiecție P . 


2.1.1. Proiectia ortografică 


Fig, 2. Proiecţia ortografică (după Forsyth şi Ponce®) 


6 4 Py ac y ta 
David A. Forsyth, Jean Ponce, „Computer Vision, A modern approach”, Prentice Hall, 2003. 
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Pentru o cameră ortografică, matricea P este o parte a matricei de rotaţie, 
rândurile a! şi b! sunt vectori unitate ortogonali. Cu alte cuvinte, O cameră 
ortografică este o cameră afină cu constrângeri suplimentare: 


sp=osihf = pl =1 20) 


2.1.2. Proiectia «weak perspective» 


Fig. 3. Proiectia weak perspective (dupa Forsyth si Ponce’) 


Proiectia weak perspective este o aproximare a proiecției obisnuite (pinhole 
camera), construită astfel: se consideră C ca fiind centrul optic al camerei şi R un 
punct de referință al scenei; proiecția weak perspective a unui punct P din scenă este 
construită în doi paşi: prima dată se proiectează ortografic punctul P într-un punct På 
din planul II” paralel cu planul imagine II, care trece prin punctul R. Proiectia 
perspectiva este apoi utilizaté pentru maparea punctului P’ in pixelul p. Deoarece 
II’ este un plan paralel planului imagine, efectul celui de-al doilea pas este o scalare 
a coordonatelor imaginii. Rezultă că o cameră weak perspective este o cameră afină 
îndeplinind condiţiile: 


a-b=0 şi lal’ = |b’ (21) 


2.1.3. Proiectia paraperspectiva 


Fig, 4, Proiectia paraperspectiva (după Forsyth şi Ponce’) 


7 Idem nota 5. 


188 


Tehnici de reconstrucție 3D din imagini multiple 


tatie 
FN Proiectia para-perspectivă este o aproximare a camerei pinhole care ia în 
3 considerare distorsiunile asociate cu un punct de referință care nu aparţine axei optice 
a camerei. Notând cu A dreapta determinată de centrul optic C şi punctul de 
(20) rofrință R, proiecția paralelă pe direcţia lui A este prima care se foloseşte pentru a 
mapa punctul P în punctul p din imagine. Se demonstrează că o cameră para- 

perspectivă este o cameră afină care satisface următoarele restricții: 

rr 


UV 2 u 253, 2 2 2 2 
a:b=———la] + b| şi (l+v;)la] =(l+u.)|b (22) 
Tew) tev)" (1+v? af = (iu?) 
unde (usv) sunt coordonatele proiecției perspective ale punctului R. Pentru acest 
model vectorii a şi b nu formează o bază pentru planul imaginii. În schimb, 
constituie o bază în planul vectorial ortogonal pe dreapta care uneşte centrul optic al 
camerei cu punctul de referință. Cum era de aşteptat, constrângerile para-perspective 
se reduc la constrângerile din cazul anterior (weak perspective) atunci când 
u, =v, =0 iar acestea, la rândul lor, se reduc la constrangerile ortografice atunci 
când planele IT şi IT’ coincid. 
Să vedem cum se ajunge la o structură euclidiană plecând de la o structură 
afină realizată prin proiecție ortografică?. Presupunem că urmărim un obiect in 
mişcare cu o cameră care poate fi aproximată afin prin modelul ortografic (obiectul 


hole este de dimensiuni mult mai mici în raport cu distanța obiect-camera). Sunt achizitio- 
R un nate N caracteristici în F cadre, corespondenţa realizându-se cu unul din algoritmii 
i este din literatura de specialitate. 


ct P* 


a be da 


În cele ce urmează folosim notatiile: 
(u,,V;)‘ coordonatele caracteristici i, i=1,N, din cadrul f; 


t t SHE CE oo 9 
P; = (X; Y,.Z;)', coordonatele neomogene ale caracteristicii i în sistemul 
-camerei; 


Pi OS. 
Ss, = | | coordonatele omogene ale caracteristicii i în sistemul camerei; 


coș pe ene ae lied ori 
anii ETE) > je =Qy,2Jy,2Jz,) primele două rânduri ale matricei 
ay D x ` 

i ortonormate ale camerei ortografice corespunzătoare cadrului f 


- (tot, ) coordonatele centrului de greutate al obiectului urmărit pentru 
cadrul f. 
Matricea măsurătorilor, formată ca urmare a colecționării celor N 
Lie caracteristici in F cadre, este: 


Idem nota 5, 
Joao Costeira, Takeo Kanade, „A Multi-body Factorization Method for Motion Analysis” în 
International Journal of Computer Vision, 29(3), 1998, pp. 159-179, 
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U, + + Yin i, [ta 
st 5 
Un o > Urn |_| te te Fy or a 03) 
t t 1 N BS 
Vn: Vin ji fyi 
Ve MASS je [tyr 
În forma compactă (23) este: 
W=MS (24) 


unde matricea măsurătorilor a fost notată cu W, matricele camerelor adică matricea 


mişcării cu M iar matricea structurii cu S. 
Calculul matricei de mişcare şi a structurii (coordonatele 3D ale 


caracteristicilor) s-ar rezuma la descompunerea SVD a matricei W: 


W=U2V! (25) 
O primă soluție pentru matricea mişcării şi cea a structurii ar putea fi: 

1 1 
M=U>?; Say. (26) 


Descompunerea matricei măsurătorilor nu este unică în cazul afin general aşa 
cum s-a arătat. Pentru orice matrice 4x4 nesingulară A în cazul general este valabilă 


şi soluția: M = MA ; S = A'S întru-cât: 


MS = (MA)(A7'S) (27) 
Urmeaza calculul matricei 4x4 A: 
A=[A,|a,| (28) 


unde primele trei rânduri ale blocului 4x3 Ap formează o matrice de rotaţie iar 
vectorul 4x1 este vectorul translatiilor, care să facă din matricea: 


M = MA = [Vra [Nt | (29) 


matricea unei camere ortografice. 
Condițiile (21) conduc la sistemul: 


A AE 4, A tat 2 
m,A,A,m j=]; mA, A,m)= | (30) 
^ Wat a 
m,;A,A,mj= 0 (31) 
necunoscutele fiind elementele matricei Ap. 
ry .. . A . m A . m A ` ` ` a 
În ecuațiile de mai sus m, , i=1,F; m i j=F+1,2F, sunt rândurile matricei M . 


Vectorul translaţiilor a,se calculează în felul următor. Cum proiecția 


centrului de greutate al obiectului este totuna cu centrul de greutate al proiectiilor 
caracteristicilor avem; 
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(32) 
3) 


(33) 
ve oe 
oda oa 


unde p = En este centrul de greutate al caracteristicilor 3D ale obiectului. 


originea sistemului de coordonate ataşat obiectului poate fi aleasă în 
greutate al caracteristicilor acestuia avem p=0, ceea ce înseamnă că 


w = Ma, (34) 
Soluţia este: 


a, = (M'M)M'w = (35) 

=Y U (36) 

aşa Celelalte două cazuri de proiecţie afină sunt tratate în aceeaşi manieră, cu 
bilă excepţia faptului că în cazul proiecției weak perspective condiţiile a-b =0 şi 
lal’ =|]? pentru m-l imagini vor înlocui cele 3m-3 condiţii (21) iar în cazul pro- 

27) iectiei paraperspective se vor utiliza condiţiile (22) în locul celor 3m-3 condiții (20). 


Am presupus până acum că toate cele n caracteristici punctuale din cele m 
| imagini aparțin aceluiaşi obiect, deci se deplasează cu aceeaşi viteză. Pentru cazul în 
(28) | care caracteristicile aparțin unor k obiecte având mişcări diferite sunt prezentate două 


| A 


metode de segmentare a punctelor în mulţimi de puncte reprezentând acelaşi obiect. 


iar | ; : 7 2 
| Problema se reduce la factorizarea mai multor matrice ale măsurătorilor, compuse 
9) i din corespondentele caracteristicilor aceluiaşi obiect. 
(29) | 
| a) Forma redusă a matricei de date 
| Definim matricea măsurătorilor ca fiind: 
(30) | Pui > Pin 
| 
e» | ca ae 
| Pmt ee Pon 
M- | 1e a] 
ect? | De data aceasta, D nu are rangul 4. În schimb, sub-matricele formate din 


tjilo | coloanele corespunzătoare fiecărui obiect vor avea cel mult rangul 4. Rangul maxim 
al matricei globale de date va fi 4k. Cu alte cuvinte, coloanele lui D corespunzătoare 


191 


FLORIN ROTARU, SILVIU BEJINARIU, SIMONA PESCARU 


subspatii cel mult patru-dimensionale. Construirea, 
fica aceste subspatii şi vectori coloană care aparțin 
etode pentru calcularea formei reduse 


pentru fiecare obiect se află în 


formei reduse a lui D va identi 
aceluiaşi obiect. Gear oferă!” mai multe m 
folosind metoda de eliminare Gauss-Jordan şi de reducere QR. 


b) Matricea formei de interacțiune 
Abordarea prezentată în secțiunea ant 


imaginii afine. Costeira şi Kanade au propus 


matricei de date. 
Presupunând că se urmăreşte deplasarea a două obiecte în mişcare şi că s-a 


realizat segmentarea caracteristicilor astfel încât se cunoaşte apartenenţa lor la 
obiecte vom avea o matrice a măsurătorilor în forma canonică: 
è 
Ww =[W, | W,] (38) 
unde submatricea W,are Ni coloane corespunzătoare celor N, caracteristici ale 
primului obiect iar submatricea W, are N3 coloane corespunzătoare celor N» caracte- 


ristici ale celui de al doilea obiect. 
Fiecare submatrice a măsurătorilor poate fi factorizata ca in cazul urmăririi 


mono-obiect, relaţia (25): 


erioară se bazează pe structura afină a 
1 o metodă diferită de factorizare a 


W, =U, > Vi = (39) 

=MS§, =(M,A,)(A;'S,) (40) 
unde |=1,2. 

Ecuatia (38) are aşadar următoarea forma: 


i 
F (41) 


A | (42) 
Folosind notatiile: 
W =(M,|M,] (43) 


(44) 


08, 
PA o 
ee a. “9 
U' =[U,|U,] k 


10 : , 
C, William Gear, „Feature grouping in moving objects” în Proceedings of the 1994 IEEE Workshop 


x Henon of Novaia and Articulated Objects, 1994., pp. 214-219 
oao Costeira, Takeo Kanade, „A Multi-body Factorizati Mel for i is” 1 
International Journal of Computer Vision, 29(3) 1998, | Su for, Motion, Ane 
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r|” ? (47) 
on 
t 
Vl = Meg) (48) 
0 Vv: 
Se obţine o factorizare similară celei urmăririi unui singur obiect: 
WwW =M'S' (49) 
ol 
Sp = AISI Ae AVA (50) 
ol 
M` =M‘A*=U'X?2A° (51) 


Din relaţia (38) rezultă ca rangul matricei măsurătorilor pentru două obiecte 
diferite are rangul cel mult 8. În continuarea paragrafului vom considera ca cele două 


obiecte sunt tridimensionale prin urmare matricea W are rangul 8, întrucât 
submatricele corespunzătoare celor două obiecte au rangul 4. În general, rangul unei 
submatrice a măsurătorilor reprezentând un plan în mişcare este 3 iar rangul unei 
submatrice rezultate din urmărirea unei drepte în spaţiu e 2. 

În realitate nu se cunoaşte apartenența caracteristicilor la obiecte, prin 
urmare coloanele matricei măsurătorilor reprezentând un obiect pot fi intercalate 
între coloanele reprezentând caracteristicile celuilalt obiect. Totuşi matricea 
măsurătorilor poate fi descompusă SVD în forma cunoscută: 


W=U>V: (52) 


urmând a fi determinată matricea A în aşa fel încât matricea formelor să aibă 
expresia (50) iar cea a mişcării forma (51). Totuşi din cauză că acest lucru presupune 
segmentarea caracteristicilor deja efectuată, trebuie aplicată mai întâi o operaţie de 
regrupare a coloanelor matricei W iniţiale în aşa fel încât, în ipoteza mişcării a două 
obiecte 3D, aceasta să fie defalcată în două submatrice de rang 4. O idee ar fi ca 
începând cu primele patru coloane liniar independente ale matricei W sa fie depistate 
şi grupate adiacent toate celelalte coloane liniar dependente de baza celor patru. 
Procedeul continuă recursiv până se obține în final o segmentare a matricei inițiale în 
două submatrice de rang patru, în exemplul nostru. Totuşi procedura, atunci când nu 
este cunoscut numărul obiectelor şi tipul acestora (obiect 3D, plan sau dreaptă), poate 
deveni foarte complexă. Costeira şi Kanade au propus!? o metodă de grupare pe 
obiecte a coloanelor matricei W care porneşte de la informaţiile conţinute într-o 
matrice Q a interacțiunii formelor definită ca fiind: 


Q=VV' (53) 


unde V este matricea rezultată din descompunerea SVD (52) a matricei inițiale a 
măsurătorilor, În cazul particular al deplasării celor două obiecte 3D matricea Q are 
dimensiunea (N1+N2)x(N1+N2), 
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Matricea Q are mai multe proprietăţi interesante: 
1. Unicitatea. Se obține unic, prin descompunerea SVD (52) a matricei măsurătorilor 
inițiale, descompunere care dă matricea V. 
2. Fiecare element al lui Q conține informaţii referitoare la faptul că o anumită 
pereche de caracteristici aparține sau nu aceluiaşi obiect. Din moment ce forma 
canonică W“ a matricei măsurătorilor, adică forma în care coloanele reprezentând 
acelaşi obiect sunt grupate adiacent, se obţine prin permutarea coloanelor matricei W 
iniţiale şi matricea y" rezultă din permutarea aceloraşi coloane ale matricei V' din 
descompunerea (52) a matricei inițiale W. De asemenea şi forma canonică Q=VV' 
a matricei interactiunii formelor va rezulta din permutări corespunzătoare de rânduri 
şi coloane. Introducând (50) în Q'= VV‘ se obţine: 
Q’ v Viv" (54) 
= SAE AS (55) 
=S"AZ A) S (56) 
= SATV ONV E A DI Ss (57) 
=S" (SS S" 


fsi ofar o js, o 
0 sij|o ajo S, Că 


_|SiAv'S, 0 
0 SAS, E 


unde A, si A, sunt matrice 4x4 reprezentând momentele de inerție ale fiecărui 
E obiect. i 
= = Da * . e o . oe 
Rezultă că forma canonică Q' a matricei interacțiunii formelor Q are o 


a 2 -A t 
structură bloc diagonală în care fiecare element Qij poate avea următoarele valori: 
t (N l 
Su $; 
Q% =3s! AF's 
ij et ay (60) 
0 


Daca iz = t =| am A . . . . 
Q; =s; ^r s, trăsăturile i şi j aparțin obiectului 1, dacă 


a TEN eu ai ; 
Qj = S} A7 S, trăsăturile i şi j aparțin obiectului 2 iar dacă Q7 =0 trăsăturile i şi] 
aparțin unor obiecte diferite, i 


3, Forma canoni e i riabila î 
er 2 peel este: invar iabilă în raport cu numărul obiectelor. În cele de 
eracțiunii formelor a fost construită pentru cazul urmăririi a două 


objecte În cazul genere entr iec n fo ă V: V M 
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SIA;S, 0 0 0 0 


0) 10, SAS 0 (61) 


© 


t a-l 
0 0 0 0 S,AMSu 
~ Ca şi mai sus, atunci când caracteristicile i şi j nu aparţin aceluiaşi obiect 
elementul Q; este nul. Proprietatea rămâne valabilă şi pentru elementele matricei Q 
‘ini ială, in care coloanele caracteristicilor nu sunt ordonate după apartenența la 
obiecte. 
4. O altă proprietate importantă a matricei Q constă în independența în raport cu 
tipul mişcării fiecărui corp, din cauză că elementele matricei conțin informații 
exclusiv asupra structurii obiectelor (elementele matricei V). 


5. Invarianta la scalarea imaginilor . Atunci când coordonatele caracteristicilor din 
imagini sunt scalate matricea măsurătorilor (23) are descompunerea: 


et 
UN ci [Cita 
et 
u cni. Crt 
ENG | FiF IVETE 
ele (a oa ul (62) 
IN Ci, | 
et 
Va +) VEN Crp Cyt yp 


unde coeficienţii de scalare sunt elementele matricei diagonale: 
Coe = diag(c;,...c;,C,,...cy) 
Invarianta la scalare rezultă din rescrierea relaţiei (62) în forma: 
Pe S 0 
w= ems -[ele.m, [e : | (63) 
2 


6. Invarian{a la sistemele de coordonate ale imaginilor Să presupunem că matricei 
formelor $ a obiectului k i se aplică transformarea 4x4 T: 


S’=TS (64) 
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Sub-matricea bloc-diagonală corespunzătoare obiectului k în matricea interacțiunii 
formelor va fi deci: 

S"(S*s")'s'= (TS)'[(TS) (TS)]'(Ts)= si(ss'y's (65) 
7. Invarianta la tipul obiectelor urmărite Forma bloc diagonală a matricei 
interacțiunii formelor este invariantă la tipul obiectelor urmărite. Rangul matricei 
formelor S este 2 pentru o dreaptă, 3 pentru un plan sau 4 pentru un obiect 3D. Cum 
Q este invariantă la sistemul de coordonate al imaginii, dacă obiectul k este o dreaptă 
Sy va fi o matrice 2XNx iar A, va fi o matrice 2x2. Similar, dacă obiectul este un 
plan S, va fi o matrice 3XN, iar A, va fi o matrice 3x3. În cazul general, pentru un 


obiect 3D, Sp este o matrice 4XN, iar A, o matrice 4x4. Rangul matricei Q 

depinde de tipul obiectelor urmărite nu însă şi forma bloc diagonală a matricei Q’. 
Aşa cum este ilustrat mai jos, continuând exemplul celor două obiecte, 

reordonarea coloanelor matricei măsurătorilor W inițiale în funcție de apartenența la 


obiecte este echivalentă cu bloc-diagonalizarea matricei interacțiunii formelor Q. 
NI+N2 NI N2 


x2), 


Fig. 5. Segmentarea caracteristicilor (după Costeira şi Kanade") 


oer i ea nA pri body Factorization Method for Motion Analysis™* este 
ritm de bloc-diagonalizare a matricei int iunii i 

prop cei interacțiunii formelor 
întâi realizează sortarea colo r si rå i vor bledi 
anelor si rândurilor pentr rear i 
is Zează S or pentru crearea unor blocuri 
iagonale inițiale iar apoi segmentează sub-blocurile obținute în primul pas în sub- 
matrice corespunzătoare fiecărui obiect, 


13 
14 


Idem nota 10, 
Idem nota 8 
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În primul pas, diagonalizarea se realizează iterativ alegandu-se acele 
permutări care minimizează energia posibilelor blocuri ne-diagonale ale matricei Q. 
Presupunem că la pasul k, prin rearanjarea a k coloane şi rânduri ale matricei Q 
iniţiale, dispunem de o sub-matrice kxk Q'*. Crearea sub-matricei (k+1)x(k+1) Q™” 
se realizează prin permutări de coloane şi rânduri în afara primelor k în aşa fel încât 
să fie maximizat criteriul: 


k 
Cj = 2,2 (66) 


unde j=k+1, k+2.....N. 


k+l 


Perrautari coloane 


Pemutari randuri 


Fig. 6. Algoritmul de sortare. În iteratia k coloanele k+1,....N sunt permutate astfel încât 
coloana care maximizează criteriul 1.66 sa completeze, împreună cu rândul corespunzător, 
. =, : AȘ 15 
sub-matricea Q*k pentru formarea sub-matricei Q*k+1 (după Costeira şi Kanade `). 


Sub-matricea Q"*"! se formează prin adaugarea in poziția k+1, a coloanei, 
dintre coloanele k+1,... N, care maximizează criteriul (66). De asemenea este 
adăugat şi rândul cu acelaşi indice rezultat din permutarea de rânduri. 

În pasul al doilea al metodei Costeira-Kanade matricea obţinută în primul 
pas, având forma (67), va fi segmentată în sensul reimpartirii sub-blocurilor diago- 
nale obtinute in primul pas Şi alocarea fiecărui sub-bloc la un obiect. Prin urmare, în 
final se obține o matrice Q formată din atâtea blocuri diagonale câte obiecte sunt, 
id rangul cel mult 4, mai exact cuprins între 2 şi 4. 


fiecare sub-bloc matriceal avar | : 
imul pas se obţine următoarea matrice a interacțiunii 


În urma sortării din pr 
formelor; 
li A Multi-body Factorization Method for Motion Analysis” in 


Joao Costeira, Takeo Kanade, A 
29(3), 1998, pp. 159-179, 


| International Journal of Computer Vision, 
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= 
— 
c] 
= 


SAS, 
Q =| 0 0 SAS, 0 0 (67) 
D000. si A's, 
000 “0 0 


05250730, 0° 0 (68) 
0 0 0 0 Qu 

Pentru ca o sub-matrice Qx să reprezinte un obiect trebuie ca, aşa cum s-a 
mai spus, rangul ei să fie cuprins între 2 şi 4. Între norma Frobenius şi rangul 


matricei Qg este următoarea relație: 


Nk Nx 
IQ, P= I> Q; (69) 
i=l j=l 
= Ok, +. +Ok, = rang(Q, ) (70) 


unde Nx este numărul caracteristicilor blocului K, R rangul său iar on sunt valorile 


singulare ale blocului. Numărul valorilor poate fi 2, 3 sau 4 după cum caracteristicile 
blocului sunt ale unei drepte, plan respectiv obiect 3D. Cum matricea Qx este 


ortonormală (Q, = S.A, S, . cu S, ortonormală şi AJ diagonală) valorile singu- 


5. oe ; o = A $ TA 
lare ale acesteia Ok, sunt unitare prin urmare pătratul normei Frobenius al matricei 
Qx este totuna cu rangul ei. 

În loc să calculăm (69) considerăm suma: 


e(m) = De: (71) 


is] j=l 
Coloana care va mări cu o unitate suma e(m) este un potential delimitator de 
obiect, în situația in care suma precedentă este cel putin 2. 
Segmentarea în acest fel însă nu conduce la o soluţie unică. De pildă, pentru 
o matrice Q de rang 8, generată de două obiecte 3D, avem posibilităţile figurate 
mai jos: 
- două sub-matrice de rang 4, reprezentând fiecare un obiect 3D — fig.7.a; 


- o sub-matrice de rang 3 asociată unui plan şi două sub-matrice de rang 2 asociate 
fiecare la câte o dreaptă — fig.7.b.; 


- patru sub-matrice de rang 2, reprezentând fiecare câte o dreaptă-fig.7.c.; 
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= 0 sub-matrice de rang 4 asociată unui obiect 3D şi două sub-matrice de rang 2 
asociate unor drepte-fig.7.d. 


dreapta 
3 
dreapta 
4 


c) d) 


obiect 3D 


* 
Fig. 7. O matrice Q derang 8, generată în realitate de două obiecte 3D, are patru posibile 
segmentari în sub-matrice asociate obiectelor (dupa Costeira şi Kanade"®) 


) 
Întrucât energia totală a matricei Q este: 
le N N 
eN) =| Q" l=} >) Q; = rang(Q) (72) 
A i=] jel 
se va alege soluția care concentrează cât mai mult din energia (72) în sub-blocuri, 
ie deci minimizează energia blocurilor ne-diagonale. 
În concluzie algoritmul de reconstrucţie afină în cazul multi-obiect este următorul: 
te l. Construcția matricei măsurătorilor W, urmarea unui proces de tracking. 


2. Calculează r=rang(W). 


16 Idem nota 14. 
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ăsurătorilor: W = UV! y 


Descompunerea SVD a matricei m f i a 
formelor Q din primele r rânduri ale matricei 


Construieşte matricea interacțiunii 


Vv". 


Sortează coloanele Q potrivit primului pas al algoritmului Costeira-Kanade. 
Realizează segmentarea sub-blocurilor matricei rezultate în pasul anterior in sub- 


matrice reprezentând obiecte. 
Calculează pentru fiecare obiect matricea Aj, iar apoi matricea de mişcare şi 


matricea formelor. 


Algoritmul Costeira-Kanade este eficient atunci când mişcarea obiectelor 
este independentă. În cazul în care unele dintre sub-matricele care compun de 
matricea de mişcare M din relaţiile de mai sus nu sunt independente (obiect în 
mişcare pe un alt obiect în mişcare sau obiect nerigid în mişcare) atunci segmentarea 
propusă nu mai dă rezultate satisfăcătoare. Kim şi Agapito au propus!” un algoritm 
de segmentare a mişcării care realizează o bună separare a coloanelor matricei 
măsurătorilor şi în cazul mişcărilor dependente. Metoda este asemănătoare celei 
propuse de Lauer şi Schnorr’? dar, în plus, nu presupune cunoscut numărul obiectelor 
de urmărit. 

Kim şi Agapito construiesc!” matrice de similaritate A pornind de la diverse 
forme ale matricei interacțiunii formelor: 


A(r) = e0D r=2,N (73) 


unde OROMOJ iar V(r) este sub-matricea construită din primele r coloane ale 
matricei V, din descompunerea SVD a matricei măsurătorilor W. 


Pornind de la matricele (73) se construiesc noile matrice de similaritate din 
produsul Hadamard ale matricelor A(r) : 


D 
Hy = I] Ar) (74) 


unde D este limita superioară (D<=N) a subspatiilor matricei de mişcare, adică 
numărul maxim de obiecte în mişcare care pot fi detectate. 
Din ultimile două ecuaţii rezultă: 


D 
B= ext Vi()V, o) = ex cos Bo] Lenn (75) 
re ra2 x 


unde V,(r)este coloana i a matricei V(r) iar Q(r), este unghiul dintre vectorii 
V;(r) $i V(r). 
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„în The th IEEE International Conference on Computer Vision (ICCV’ 
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Kim şi Agapito au prezentat” rezultatele analizei mişcării a trei obiecte, 
urmărite de o cameră afină statică. Mai întâi obiectele sunt deplasate utilizând rotații 
şi translații independente iar din caracteristicile corespondente din lanțul de imagini 
este construită matricea corespondentelor. În figura 8 sunt ilustrate matricele A(r) şi 


H pentru r=2,9. Se observă că matricele de similaritate A(r) au valori nule (gri 


închis) pentru blocurile ne-diagonale şi valori nenule (gri deschis) pentru r=8, 9. 
Matricele H se pretează mai bine segmentării mişcării întru-cât conturarea blocurilor 
nule ne-diagonale şi blocurilor diagonal ne-nule se produce pentru valori r>=5. 
Blocurile ne-diagonale au valori mult mai apropiate de zero decât matricele A(r) iar 


blocurile diagonale valori ne-nule mai mari ceea ce face segmentarea mai simplă. 


Fig. 8. Mişcări independente. În rândul de sus sunt figurate matricele A(T) iar în rândul al 
doilea matricele H pentru r=2,9 (după Kim şi Agapito”!) 


Fig. 9. Mişcări relationate. Randul de sus: matricele A(r) ; Rândul al doilea: matricele H 
pentru r=2,9 (după Kim şi Agapito”). 


Fig. 9 ilustrează matricele A(r) şi H în situaţia în care obiectele au în 


comun unele din mişcările de rotaţie. În timp ce blocurile ne-diagonale ale matricelor 
A(r) sunt ne-nule cele ale matricelor H îşi păstrează proprietățile din mişcarea 
independentă, constituind un instrument mai potrivit pentru segmentarea mişcării. 
O problemă este alegerea dimensiunii maxime D din relaţiile (74), (75). In 
algoritmul de segmentare propus de Kim şi Agapito este pus în evidenţă faptul ca D 
este calculat astfel încât maximile din histogramele matricelor H să fie distantate la 


% Idem nota 14. 
21 Jae-Hak Kim, Lourdes Agapito, „Motion Segmentation using the Hadamard Product and Spectral 


Clustering” in Proceedings of the 2009 international conference on Motion and video computing 
(WMVC 2009), December 2009, Snowbird, Utah, USA, pp. 126-133, 
Idem nota 16, 
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cel puţin o valoare ti stabilită anterior iar diferența dintre elementele din jurul 


maximelor să fie mai mare decât o valoare de prag tz. 
Algoritmul de segmentare Kim-Agapito este: 
1. Determină matricea V din descompunerea SVD a matricei măsurătorilor W; 


2. D=2; 

3. Pentru r=2,N: 

3.1. Calculează Q(n=V(nv(n%; A(r) =e", H; J H;A;/ 
matricei A; 

3.2. Determină centroidele cı şi cz din histograma lui H; 

3.3. Calculează hi=histe(A, cı), h>>histe(A, c2) numărul elemente 
vecinătatea fiecărui centroid c;; 


3.4. D=D+1; 
3.4. Continuă bucla atâta vreme cât: | ci - co|<tu sau | hi - h2|<t2. 


ASAT 
AJ, cu |A| norma 


lor din A din 


D 
3. Segmentează mişcarea utilizând matricea finală H: H; = II A;C). 
r=2 


Lauer şi Schnorr au propus” ca alegerea dimensiunii D să se facă în felul 
următor. Se pleacă de la ideea că valoarea optimă pentru clusterizarea în n sub-spatii 
d-dimensionale este D=nd+1. În cazul segmentării mişcării d variază între dmin=l şi 
dinax=4. Se descompune matricea măsurătorilor: W = UXV! şi se inițializează 


D=ndaint 1. Se calculează apoi matricea de similaritate A: 
2a 
t 
Viv; 


i SIUI 

lv; lv j | 
unde valoarea parametrului % este o măsură a separabilității claselor. Se alege şi în 
funcție de nivelul zgomotului din imagini. Lauer şi Schnorr lucrează“ cu O =4. În 


(76) vi şi Vj 
coloane ale matricei V din descompunerea SVD a matricei măsurătorilor. Se 
calculează apoi matricea L: 


ib, a DAD? (17) 


A (76) 


sunt coloanele matricei X=[V,, V2,.... Vp] formată din primele D 


N 
unde D este o matrice diagonală construită după regula: D; = > Aj- 
j=l 


Se evaluează apoi o măsură a separabilitatii clusterilor: 
TAS An EA (78) 
D A 
Aai Aa 


3 
unde A, 22, Z... Z Anp sunt cele mai mari n+1 valori proprii ale matricei L. 


23 . a a 7 A ie 
Fabien Lauer, Christoph Schnorr, ,,Spectral clustering of linear subspaces for motion segmentation” 


in The 12th IEEE International Conference on Computer Visi y" 2 
PL ii A e p ision (ICCV’09), 2009, pp. 678-675. 
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Se incrementează valoarea curentă a lui D, D=D+1, şi se reia procedeul de 
mai sus până când D=ndumtl. 


Se alege apoi drept valoare optimă pentru D=max r, şi se aplică pentru 
această valoare algoritmul de clusterizare propus de Ng, Jordan gi Weiss”. 


: În concluzie, algoritmul Lauer-Schnorr este: 
1. Determină matricea V din descompunerea SVD a matricei măsurătorilor W. 
2. D=ndantl. 
3. Calculează matricea A conform (76). 
4. Determină matricea L din (77) şi primele ei n+1 valori proprii 


6. Dacă D=ndmax+1 continuă cu pasul 7, dacă nu reia procesul de la pasul 3. 

7. D=max Tp ; Construieşte matricea X=[ v; , V,..... Vp]: 

8. Construieşte matricea A astfel: Ay=exp(-llvi-vjll"/ 25 ) dacă i # j, Ai=0, cu 
sn ij=l,...D. 


l N 
9. Construieşte matricea diagonală D:D, = > A, si matricea L = D'?AD"”. 


j=l 

10. Determină primii D vectori proprii ai matricei L şi formează matricea U. 
" D 

11. Normalizează rândurile lui U: U; =U,/ Dü : 

da a 


128 Aplică metoda de clusterizare k-means rândurilor matricei U şi asignează cluster-ului 
corespunzător fiecare coloană a matricei X=[V,, V3,- Vp]. 


2.2. Reconstrucţie proiectivă 


Vom discuta mai întâi un algoritm de reconstrucție proiectivă şi apoi vom 
analiza un algoritm care tratează global, la nivelul întregului set de corespondențe, 
atât reconstrucția modelelor camerelor şi a punctelor din spațiul proiectiv cât şi 


calculul parametrilor Nij, 


Plecând de la ecuația exactă a proiecției x a unui punct X din spațiul 
proiectiv în planul imaginii camerei P: 
Ax = PX (79) 


vom nota cu: 


25 Andrew Y. Ng, Michael I. Jordan, Yair Weiss, „On spectral clustering: Analysis and an algorithm” 
in Advances in Neural Information Processing Systems (NIPS"02), MIT Press, 2002, vol. 14, pp. 
849-856. 
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Min e ee ee Re 
Man Yar e + Yin i bem 
igo nes) 


matricea celor n pixeli corespondenti din imaginea i. 
De asemenea, vom nota cu X matricea celor n puncte din spaţiul proi 
vizualizate în cele m camere: 


oe 0200 MIDI X 


n 
A Y, dy 
Z, Z: Z; ape Ze | 


In a DR al | 


şi cu A, = diag(A, A ase) distanțele A; ; corespunzătoare pixelului i în 
camera j. 
Folosind notatiile de mai sus ecuaţiile (79) pentru cele m camere sunt: 


xA = PX (82) 
Sistemul de ecuații (82) este aşadar: 
x,A, P, 
x,A, P3 
x,A, P, 
= X=PX (83) 
XA E, 


Notând subspatiul generat de rândurile matricelor 
generat de rândurile matricei X relațiile (82), (83) implică A 
A2Dz+....+ AmDm S D, unde Sy tS.={x+y; xe Si, YE Sp}. 

In continuare, notând x;A; =X;,, multiplicând fiecare membru al ecuației 
(83) cu transpusul său şi facând media pentru totalul imaginilor obținem: 


x; cu D; şi cu D spaţiul 
DiC D, respectiv ADy+ 


l m RA ] m | 
D2 XX, = (== P'P. X = X'— p'px 
= = `P. )X=X =p PX (84) 


: : = x'i(e gts = 
Fie matricele T, =X; (8 X!) 1k 


A eel 
isi J 3 Se Matricea T este ? 
i=l 
area vectorilor xi: 

ę t Y i ty=l > —_§ =la a =; ; 
CAR: (AR, (A$, TAR = BA (AG RTA TAR, =A = Tae 


independentă de baza aleasă pentru reprezent 
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Relaţia ADı AzD>t+....+ AmDm G D implică de fapt ca rang(T)<=4, 
întrucât rang(D)=4. Rezultă că, independent de sistemul de coordonate ales pentru 
fiecare cameră, a cincea valoare singulară din descompunerea SVD a matricei T 
trebuie să fie nulă. Cum acest lucru, pentru un set de măsurători afectate de zgomot, 
nu se întâmplă Berthilsson, Heyden şi Sparr propun următoarea metodă de 
reconstrucție proiectivă, pornind de la setul de n corespondențe din primele două 
imagini din setul de m imagini: 


Îi op N 
l. Fie variabilele q; j = Na , initializate pentru început cu 1. 
be Lj 


cor O.: AE 

2. Se determină T =— J 2i; i; - 

E ag A mi mj 

3. Din descompunerea SVD T=U'SU se retin matricea U şi a cincea valoare 
singulară, os. Dacă os este mai mică decât un anumit prag prestabilit şi tot setul 
de imagini a fost procesat calculul coeficienţilor 1, ;, matricelor X şi P; se 
încheie. 

4. Fie X matricea obţinută din U prin reținerea primelor patru rânduri. 

Adaugă una sau mai multe imagini şi completează şirul de corespondențe. 

Pentru noul şir de corespondențe calculează A; din x;^; =P,X in felul 

următor: fie Tp= X'(XX')"X şi Qp=I- Tp. Relaţia x;A, = P,X este echivalentă 

A cu Qp(x;A;)=0, ceea ce înseamnă 3m ecuaţii lineare având m necunoscute (A;). 


3 | á 
Soluția rezultă din optimizarea: min Sl Q,A;x} |? unde x}, j=1,2,3, sunt trei 
PE ra 
coloane ale matricei (80) considerate în această relaţie drept rânduri. 


7. Determină q;; =—~, calculează X, şi continuă cu pasul 2. 
oJ N 1 
1j 


Avantajul algoritmului lui Berthilsson, Heyden si Sparr” în raport cu metoda 
lui Heyden” constă în faptul că atunci când este nevoie doar de reconstrucția X 
convergenta este mai rapidă. În acest caz pasul 3 se modifică în sensul că procesarea 

l se încheie atunci când valoarea singulară os este sub un prag prestabilit. 
| În continuare vom analiza algoritmul propus de Mahamud si Herbert?” care 
spre deosebire de metoda lui Sturm şi Triggs” tratează global, la nivelul întregului 


Richard Berthilsson, Anders Heyden, Gunnar Sparr, „Recursive Structure and Motion from Image 
a Sequences using Shape and Depth Spaces” în Proceedings of the International Conference on 
Computer Vision and Pattern Recognition , 1997, pp. 444-449. 

Idem nota 25, 

Anders Heyden, „Reconstruction from multiple images by means of using relative depths” în 
International Journal of Computer Vision, 24(2), 1997, pp. 155-161. 

II 2 Shzjan Mahamud, Martial Herbert, „Iterative projective reconstruction from multiple views”, în 
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR '00), 
June, 2000, pp. 430-437, 
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set de corespondențe, atât reconstrucția modelelor camerelor şi a punctelor din spa- 


: a cea 31 : 
tiul proiectiv cât şi calculul parametrilor Aj . Sturm şi Triggs propun determin 
acestora din perechi de imagini, ceea ce ar conduce la acumularea erorilor de cal 
in timp ce in primul caz” distanţele À; Sunt calculate folosind întreg setul í 


corespondențe odată cu calculul matricelor camerelor şi reconstrucției projective. În 
plus algoritmul lui Sturm şi Triggs este mai laborios întrucât pentru fiecare pereche 
de imagini trebuie determinate matricea fundamentală $1 epipolii. Metoda lui 
Mahamud şi Herbert” calculează distanțele A, ; simultan cu reconstrucția proiectivă 


(P şi X din relațiile de mai sus) optimizând un criteriu derivat dintr-o condiție 
îndeplinită de toate cele m imagini ale aceluiaşi punct din spațiul proiectiv. Metoda 
este asemănătoare celei propuse de Berthilsson, Heyden şi Sparr , cazul în care se 
determină reconstrucţia proiectivă în totalitate, însă normalizarea datelor este diferită, 
formulată mai natural, ceea ce conduce la o altă problemă de optimizare. 

În cele ce urmează vom arăta că dacă matricea P din relaţia (83) este cunos- 
cută parametrii A, corespunzători imaginilor x; ale un punct X, din spaţiul pro- 
iectiv în toate cele i=1,m imagini pot fi deduşi rezolvând o problemă de vector pro- 
priu derivată dintr-o condiţie de subspatiu. 

Fie s; vectorul coloană rezultat din proiecția punctului X, în cele m imagini: 

SINE hx,]= PX; (86) 

Din relaţia de mai sus rezultă că dacă matricea P este cunoscută se poate 

verifica dacă pixelii x; rezultați din măsurătorile în cele m imagini sunt într-adevăr 


imaginile aceluiaşi punct X; atunci când putem calcula parametrii A; ; şi punctul Xj. 


Din expresia (86) se vede că vectorii $j aparţin unui subspatiu generat de combinaţii 
ale coloanelor matricei P având coeficienţii dati de vectorul X;. Condiţia de subspatiu 
din care va fi derivată relaţia de calcul pentru À; conduce la faptul că reziduul pro- 


iectiei vectorului s j Pe spaţiul coloanelor lui P este nul: 
+ 2 
}@P*-DsiP _ 


yes. 


(87) 


noe t . . 

unde Wi=(My 5, Az js Am j) iar P* este pseudo-inversa matricei P. 
De notat că reziduul Rj este normalizat pentru a se evita soluţia trivială s.=0. Expre- 

Li . . OT w w 5 3 i 
sia de mai sus se simplifică dacă se alege o bază ortonormală pentru spațiul coloa- 
3 Peter Sturm, Bill Triggs, „A Factorization B 
and Motion” în Proceesings of 4th E 
April 1996, pp. 709-720 
Idem nota 25. 
Idem nota 24. 


Idem nota 24, 
Idem nota 22. 


: ased Algorithm for Multi-Image Projective Structure 
uropean Conference on Computer Vision, Cambridge, England 
31 
32 
3 
34 
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nelor matricei P. Fie U matricea 3mx4 ale cărei patru coloane constituie o bază 

ortonormală a spaţiului coloanelor lui P. Din cauză că U'=U' expresia reziduului se 

transformă în: 

t t 

s:UU s, 

L AEA Jas 

ODI ROA) = = m (88) 
lee) 


Punând în evidență necunoscutele A, jsi corespondentele x, avem 


s\U= A Na unde randul i al matricei mx4 Aj este dat de q;U;, cu U; matricea 
iu eae din rândurile 3i, 3i+1, 3i+2 ale matricei U. Prin urmare: 
ca, NA, A Ay 
Boe) -— a! (89) 
unde matricea diagonală B jare elementul (i,i) de forma X;X;j 
Câteva proprietăți ale funcției G ;(A;): 
ik Deoarece reziduul  R,(Q,) = 1- GQ; )> Orezultă că G,(4,) are valoarea 


maximă 1. 
2. GQ; )atinge valoarea maxima | pentru o anumită valoare a vectorului 4, daca 


într-adevăr pixelii x; sunt imaginile aceluiaşi punct Xj. 
. Maximul lui G,(A;)este dat de cea mai mare valoare proprie u din ecuaţia: 


A.A‘. =pB,A. 


Din cele de mai sus rezultă că pentru a verifica faptul că pixelii x, sunt ima- 


ginile punctului X; în cele m imagini trebuie ca valoarea proprie maximă dată de 
relația de mai sus să aibă valoarea 1. Vectorul 4 căutat rezultă din vectorul propriu 


corespunzător valorii proprii maxime. 

Din cele de mai sus rezultă că pornind de la corespondentele cunoscute X; 
dacă am şti parametrii À; j, matricele P; şi reconstrucția Xj se pot obţine prin meto- 
dele de factorizare deja discutate. Reciproc, dacă am cunoaşte matricea P, folosind 
condiția de subspatiu discutată mai sus am putea determina Aj . Folosind depen- 


denta circulară dintre necunoscutele P; şi A, se conturează următoarea metodă de 


reconstrucție proiectiva: pornind de la valorile iniţiale A; = 1 se determină matri- 
cea P, printr-una din metodele de factorizare folosite în cazul reconstrucției afine. 
Apoi cu noua matrice P aplicând condiția de subspatiu se determină noile valori À; i: 
Teoretic în pasul k al procesului iterativ acestea rezultă din minimizarea relaţiei: 
|(U‘X, -s, |? 


R;Q;,X;) = P (90) 


|s; 
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oloanelor lui P“, matricea P a matricelor 


e U“ aormată a spațiului c : 
E T i în expresia de mai sus au 


camerelor calculată în pasul k. Valorile optime pentru Xj 


3 i inimi R (9), ceea 
forma X, = (U*)! sj „unde S| este valoarea optima care minimizează R j(4;), 


ce rezultă din: 
E o 01) 
OX, 
Ultima observatie face ca optimizarea reziduului R (A. pX j) să fie echiva- 


lentă cu maximizarea criteriului: 
takakt 
G(h,) = a Si (92) 
jE 
unde A; şi BS au aceeasi semnificatie ca cele din expresia (89) doar ca sunt 
calculate in pasul k al procesului iterativ, pornind de la baza ortonormata u“. 
Valorile à; se determină din ecuația A AA = uB A. aflând vectorul pro- 
priu corespunzător valorii proprii maxime pH = js 
Cu noile valori A, introduse în matricea măsurătorilor se determină prin 
factorizare următoarea bază ortonormată U*" şi procesul continuă până când valorile 
i, ; se stabilizează. Desigur, in fiecare pas calculul vectorului À ;, aferent corespon- 


dentel a > Syren E: ei 
telor Xij <> Xj <> Xn) imaginile punctului Xi, se repetă pentru toate 


punctele din spaţiul proiectiv Xi, j=1,m. 
In continuare vom discuta convergenta şirurilor A, j=l,m. Vom nota cu À 


matricea [),,]. Fie funcția obiectiv: G* (3) = DO (àj). Matricele A‘ si 
n jal 


ka . k A 
B; din expresia G; (A ;) sunt calculate în pasul k al procesului iterativ, pornind de la 
b k $ A k . ` ` 
aza ortonormata U’, Intru-cât G;(%,)<1 funcția obiectiv va fi de asemenea 
a rms k o 3 
subunitară; G“ (4) <1, Mahamud şi Herbert au demonstrat?’ următoarea teoremă: 


g” ONES > G* (9) 


Demonsirajie La începutul iter 
Mai în 


(93) 


aţiei k dispunem de U*! si A*! din iterati 
as Saat si X din it “i 
fai este menținută constantă matricea U*! n iteratia anterioară. 


ŞI este maximizată funcția obiectiv 


35 ; 
ne, Martial Herbert, 
roceedings of the IEEE C 5 
June, 2000, pp. 430-437, Adana 
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GQ) pentru obținerea matricei A“. Prin urmare vom avea GARZ OORE N 
jn caz de egalitate procesul iterativ se încheie. Altfel, se determină U* din 
factorizarea noii matrice a măsurătorilor construită din setul initial de corespondențe 


Midis 


ij 
(5) Bia; ee 

u coloane ale primei matrice a descompunerii corespunzătoare celor mai 

u valori singulare. Rămâne să arătăm că G* (1) > G*7(2.*), prin tranziti- 
tând apoi ceea ce trebuia demonstrat: G* (A*) > G*1(4*"). 

roiectia unei matrice W pe un subspatiu U este dată de tr(U'WW'U). Lema 

a lui Poincare arată că proiecția unei matrice W pe un subspatiu ortogonal 


mensional, este maximă atunci când subspatiul este generat de primii din 
vectori singulari U ai matricei W. Adică: 


max tr(U'WW'U) = tr(U ‘WWw't ) (95) 


Pentru r=4 se poate vedea că proiecția lui WE pe U=U*! nu este altceva decât 
Ga). Notând U* = UX din descompunerea SVD a lui WE rezultă G'(A>= G* 
125). În final avem: G*(A)>= G*1(A*1), ceea ce trebuia demonstrat. 


În continuare vom analiza din alt punct de vedere problema rezolvării siste- 
mului (83) pornind de la matricea celor n corespondențe din m imagini. Rescriem 


| (83) în forma: 

| Ae Da a o AS P, 

| aka AX e - an Xan P, 

| = | s [Tr ea ee [pet OG) 
| 

| Ai Xa oana ale ase e ma Za pă 


Ideal ar fi dacă s-ar putea folosi ca în cazul afin optimizarea care minimi- 
Zează distanța dintre pixelii corespondenți detectaţi în urma procesării celor m 


imagini și pixelii estimati pornind de la parametrii A, |, Xj şi Pi: 
2 


] | 
E=—)'\x, -—P,X, (97) 

mn ij ij 
Din păcate minimizarea lui E în raport cu Aj» P, şi X; conduce la sisteme 
neliniare greu de rezolvat. Folosind însă notațiile de mai sus 
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j = hie) vom minimiza 
Sj i = (AX Aaj Xj A i ŞI (jo aj mj) i 


E= TAE, cu E. = i= ; i lb, -PX ae ceea ce înseamnă minimizarea en E E, 


în raport cu A, P şi X). Adică minimizarea distanțelor dintre proiecţiile punctului X; 
în toate cele m camere şi imaginile sale x; scalate de parametrii Àj- Procedăm ca mai 
sus la minimizări succesive, mai întâi considerând P fix şi optimizând E; în raport 
cu À; şi Xj iar apoi cu noile valori A; minimizăm E în raport cu P şi X prin factorizare. 


Ca şi în cazul afin minimizarea lui E; în raport cu X; conduce la faptul că 


GE, 
se obţine pentru X, =P's,, rezultat din oxo ae unde 
j 


optimul lui E; 
ae (P'P)'P': 
1 2 
E; aie > (98) 
j 


Cum P este o matrice 3mx4 descompunerea SVD va avea forma P=UWV', 
cu U o matrice 3mx4 având coloanele ortogonale, W o matrice diagonală nesingulară 
4x4 şi V' o matrice ortogonală 4x4. Pseudo-inversa matricei P a matricelor 


1 2 : à a 
camerelor este a P*=VW U', ceea ce transformă relaţia de mai sus în: 


ay pph -wv ja 
Si 


Ceea ce înseamnă că minimizarea criteriului E j se transformă în maximizarea 


(99) 


2 


je UU')s sql = = 


s; 


Ta 
expresiei ———-—— în raport cu A; Deoarece si SI jQ; j> unde 
ls, 
x 0 0 
X 0 
‘+ +. |, in final trebuie optimizata expresia: 
0 p d Xa 
AA) 
3 T, (400) 
unde A. =Q UU'Q' i; = t pr : 
j Q, Q; iar B j =0,Q,. Prin urmare trebuie maximizat criteriul 
G; (A) de mai sus, 
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Aşa cum s-a arătat, cu noile valori A, introduse în matricea măsurătorilor se 
determină prin factorizare următoarea bază ortonormată U'"' şi procesul continuă 
până când valorile À; j se stabilizează. 


Sintetizând, algoritmul de reconstrucţie proiectivă discutat mai sus are următorii paşi: 


1. Pornind de la valorile iniţiale A; ;=1 repetă până la convergență paşii: 
2. Normalizează fiecare coloana a matricei 
a Anan e ore n 
oala AX > + AmXan 
D=| . ata udă 
mm A ma Xm2 aes eon X mn 
3. Din descompunerea SVD a matricei D=UWV! formează matricea U; retinand 
primele 4 coloane ale matricei U. 
4. Pentru toate corespondentele j=1,n repetă paşii: 
4.1. calculează A=Q;U,U;'Q;' şi B=Q,Q;; 
4.2. calculează vectorul À AD 


4.3.actualizează coloana corespunzătoare a matricei D cu noile valori A; . 


ii: 
3. Tehnici de urmărire a unui corp rigid; Tehnici de calcul 
pentru estimarea 3D a mişcării 


În cele ce urmează vom analiza un sistem de urmărire a unui robot mobil 
care se deplasează în mediu natural. Pe robotul mobil este montat un sistem 
trinocular de camere video care captează imagini ale mediului. În urma procesării 
secventei de imagini achiziționate pe parcurs în final se determina traiectoria 
robotului într-un sistem de referință extern. Procesul de urmărire constă din paşii: 
Extragerea din imaginea curentă a trăsăturilor care vor fi urmărite în cadrul următor. 
Calculul coordonatelor 3D ale trăsăturilor extrase prin tehnici stereo. 

Urmărirea trăsăturilor 3D în secvenţa de imagini. 
Estimarea mişcării: Calculul poziţiei robotului într-un sistem de referință extern. 
Corectia poziţiei robotului şi a coordonatelor 3D ale caracteristicilor scenei. 


OR OP 


În continuare vom discuta în detaliu paşii de mai sus. 
3.1. Extragerea trăsăturilor 
Într-o primă etapă, Sacedi, Lawrence şi Lowe au aplicat“ algoritmul de 


% Parvaneh Saeedi, Peter D, Lawrence, David G. Lowe, „3D Motion Tracking of a Mobile Robot in a 


Natural Environment” in Proceedings of the 2000 IEEE International Conference on Robotics and 
Automation, \CRA 2000, pp, 1682-168. 
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ns”, potrivit căruia colț este declarat 


extragere de colțuri propus de Harris şi Stephe p e 
orice pixel pentru care o funcţie de răspuns, descrisă mal Jos, notată cu R, are o 


valoare pozitivă semnificativă. Calculul lui R presupune definirea mai întâi a unui 
criteriu E(x,y) calculat pentru deplasări mici ale unei ferestre circulare de interes, 


notată cu W, + în jurul pixelului curent (u,v): 
2 
E(3y) = Wav I (101) 


u,v 
În relația (101) I, , este intensitatea pixelului (u,v) din imaginea curentă iar 


DAAN “Ki 


x, y reprezintă deplasarea ferestrei circulare W,, =e 
În ipoteza unor deplasări mici ale ferestrei criteriul E(x,y) poate fi 


aproximat ca urmare a dezvoltării în serie Taylor a termenului su y+v — luv din 
ecuația (101): 
E(xy)= Wav 


Lal =W KX tyty = 


IE yey EV, 


(102) 


= WX] 


X =I 8 (-1,0.1) ~ a Y =1@(-1,0,1)' = is 
Ox oy 


Asadar E(x,y) poate fi scris ca: 
E(x,y) = Ax? + 2Cxy + By? 


_y2 
A=X QW, B=Y’@W, C=XY@W (105) 


in final E(x,y) = [x vim) cu M = in ee i 
y CHB 


ta ob) este declarat orice pixel pentru care R=Det(M)-K*(Tr(M)) are o 
valan P ae semnificativă, In expresia lui R coeficientul K reprezintă raportul 
pes ae os prepni ale matricei M pentru situația în care funcția de răspuns R 
al ative, Pentru regiuni uniforn ; i in jur iOi 

RE pozitive. Pe ne R are valori in jurul lui O iar pentru 
hep apd met sus este eficientă în selecția colturilor, T 

e cea descrisă, când imaginile trebui t 

; m este çe e trebuie proc 

devine prohibitivă fiind consumatoare de timp Bee 


otuşi în aplicaţii de 
de la cadru la cadru, 


3 ~ Mik S > b ai na . { h Alve 
7 C 5 . . 
hri Harris, IKG > tephens, vA com ined corner and ed e le ecto Pr 0, í 
f à i i C g detector m oceedings of + oe 
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O metodă mai rapidă decât cea a lui Harris gi Stephens" a fost propusă de 
mr) Lawrence şi Lowe” şi este aplicată pentru determinarea traiectoriei robotului 
mobil”, 4. 

Într-un prim pas imaginea inițială este binarizată. Mai întâi se aplică un filtru 
Gaussian. Pentru © = 0.8 filtrul poate fi aproximat prin convolutii cu masca [0.25, 
0.5, 1, 0.5, 0.25 ]. in acest fel cele patru înmulţiri presupuse de convolutie sunt înlo- 
cuite de patru operaţii de shifting. Apoi în imaginea rezultată, în fiecare pixel I(i, j), 
este calculat Laplacianul potrivit formulei: 

Du o 
ao 


Imaginea binară este generată in funcţie de semnul Laplacianului (106) în 


x E aila i st lie = AI; ;) (106) 


0 altfel 


Apoi în fiecare pixel al imaginii binare rezultate este plasată o masca 
circulară cu diametrul de 7 pixeli. Valoarea binară a fiecărui pixel p din interiorul 
măştii este comparată cu cea a pixelului central po: 


_ |Ldaca L(p) = Lpo) 
CoP) = T * L(Po) 


unde L(p) este valoarea binară a pixelui p(x,y) din interiorul măştii circulare iar 


(107) 


L(p,) este valoarea pixelului central. 
La nivelul întregii măşti w se calculează: 


n(po)= > C(posp) (108) 


În (108) N(p,) este aria zonei măştii unde semnul Laplacianului este acelaşi 
cu cel al Laplacianului punctului central. 


Pixelul central Po este luat în considerare ca posibil colt dacă n(p, ) este mai 


mic decât jumătate din pixelii ferestrei w, valoare pe care o vom nota cu t. 
Prin urmare un pixel este candidat colt dacă R(po), definit mai jos, este pozitiv. 


38 Lt . , x Fi 

Chris Harris, Mike Stephens, „A combined corner and edge detector” în Proceedings of 4th Alvey 
Vision Conference, 1988, pp. 147-151, 
linisti gene Bay G, Lowe, Peter D, Lawrence: „An efficient binary corner detector” în 

roceedings of Seventh International Conference on Control, Automation, Rebotics and Visi 

ICARCY 2002, pp, 338-343, i ; EN T 
Parvaneh Sacedi, David G, Lowe, Peter D, Lawrence, „3D localization and tracking in unknown 
environments” în Proceedings of the 2003 IEEE International Conference on Robotics and 
Automation, ICRA 2003, pp, 1297-1303, 
Parvaneh Sacedi, Peter D, Lawrence, David G, Lowe, „Vision-based 3-D trajectory tracking for 
unknown environments” in JEEE Transactions on Robotics, Feb. 2006, vol, 22, pp. 119-136. 
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n(po) daca npo) <t (109) 
R(Po) i i altfel 


et Giga 
Apoi pentru fiecare pixel cu R(p,) > Ose calculează criteriul (po) 


110 
G(p.)= (a(x) + (e(yo)) (110) 


TES -x) Live -y) 
g(X))=— tear gyo) = te) (111) 


unde 


Centrul de greutate G(p,) furnizând direcţia coltului este folosit drept 


criteriu la filtrarea candidaţilor. Se aplică condiția: A 
G(po) > |r, ( 2) 


Un ultim criteriu de selecţie a colturilor constă în aplicarea unui criteriu 
luând în considerare derivata direcţională a candidaţilor. Candidaţii cu derivate mici 
directionale sunt eliminați. Ultima condiţie de colt este: 


lI(p.)-1(p)>1, (113) 


unde |, este pragul pentru variaţia intensității. 


3.2. Calculul coordonatelor 3D ale trăsăturilor extrase prin 
tehnici stereo 


Stabilirea perechilor de trăsături în cele două camere ale fiecărui sistem 
stereo se face aplicând mai întâi criteriul sumei normalizate a pătratelor diferenţelor 
pentru stabilirea unui set initial de perechi. După care perechile stabilite initial sunt 
triate prin metoda minimizării disparitatilor’, discutată pe scurt la stârşitul para- 
grafului, pentru cazul unidimensional. 

Odată stabilite caracteristicile punctuale imagistice de urmărit se determină 
punctele din scena reală ale căror imagini aceste caracteristici sunt, folosind fie un 
sistem stereo fie un sistem trinocular, ilustrat de fig.10, În sistemul stereo cele două 
camere sunt aliniate orizontal astfel încât epipolara corespunzătoare oricărui pixel 
dintr-o imagine să fie paralelă cu axa Ox a sistemului celeilalte imagini”. În sistemul 
trinocular perechii de camere aliniată orizontal i se mai adaugă o cameră aliniată 
vertical cu camera din dreapta a sistemului stereo iniţial, care devine camera centrală 
a Sistemului trinocular, Deşi reconstrucția este posibilă din doar două imagini cea de 


42 : Rar 
Masatoshi Okutomi, Takeo Kanade, „A multiple- 


i i baseline stero” în JEEE Transacti t 
Analysis and Machine Intelligence, (PAMI), vol, 15(4), 1993, pp. 353-363 Tomections OI 
Florin Rotaru, Dan Galea, lon Păvăloi, Silvi ina Nit ; 


i EREE 1 Bejinariu, Cristina Niţă, Ran E ie 
3D din două imagini” în Raport de cercetare, noiembrie 2007, UT le samona Luca, „Recor 
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a cameră este introdusă pentru a elimina colțurile false, cele ale căror imagini nu 
găsesc în toate cele trei camere. 

“În figura 11 este ilustrat sistemul stereo format din camera din stânga şi 
centrală a sistemului trinocular din fig. 10. În continuare vom nota cu f 
focală a camerelor şi cu By distanța dintre centrele camerelor, presupuse 
te în urma calibrării sistemului stereo. Coordonatele 3D al punctului 
) din scena 3D în funcție de imaginile sale din camera din stânga, P,(x:,y1), 
tiv camerei centrale P.(X.,Yo), ținând seama că yı = yc, sunt: 


Di Pi 

XX 
X=Z"1 (114) 
pez 


Camera sus 


fis 
Camera stânga 


Fig. 10. Sistem trinocular de camere (după Takezawa, Herath şi Dissanayake “. 


Satoshi Takezawa, Mudiyanselage Herath, Gamini Dissanayake, „SLAM in indoor environments 
with stereo vision” in Proceedings of 2004 International Conference on Intelligent Robots and 
Systems, (IROS 2004), vol. 2, pp. 1866-1871. 
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i de următoarele 
Prima din relaţiile (114) rezultă din rapoartele generate 


asemănări de triunghiuri din fig. 11: 


POEPT ER (115) 
APLP, eS APMC, AAW PACH Z PC, 
Pe BED x, Xa PE (116) 
APPP, ~ APCIC, 5 Ney a PC, ’ B, PC, 
Z-f Box tă po Bi (117) 
Z Ti B, Xe —X 
P(X,Y,Z) 


Fig. 11. Calculul adâncimii scenei utilizând sistemul stereo orizontal din 
configuraţia trinoculară din fig. 10 (dupa Saeedi, Lawrence, Lowe 45) 


Evident coordonatele 3D ale trăsăturilor sunt în sistemul euclidian OXYZ al 
sistemului stereo (fig. 10). În cursul procesului de urmărire acestea, pentru fiecare 
poziţie a robotului, sunt transferate în sistemul de referință extern considerat ca fiind 
sistemul robotului (totuna cu sistemul euclidian OXYZ) în prima poziție, aşa cum 
este figurat mai jos. Totodată coordonatele 3D sunt elementele unei baze de date, 
care în plus păstrează informaţii privind numărul de cadre si care anume sunt acestea, 
cadre în care caracteristica respectivă este vizibilă în imaginile sistemului trinocular. 
Aşa cum s-a spus mai sus vom detalia modul în care perechile stabilite inițial sunt 
triate prin metoda minimizării disparităţilor!, Demonstratiile vor fi făcute pentru 
cazul unidimensional. Metoda apelează la ambele sisteme sisteme stereo din sistemul 
trinocular, pentru eliminarea ambiguităţilor, 


Considerăm mai întâi cazul general a n camere având centrele Pe sii Ba 
aliniate orizontal la distanțele B,,.. B,» în aşa fel încât axele lor optice sunt 


45 a : 

Parvaneh Sacedi, Peter D, Lawrence, David G Low ion T 

i  Sacedi, Pete h » Lowe, „3D Motion Tracking of ile ina 

Natural Environment in Proceedings of the 2000 IEEE International Contes toe eS ae 

A Automation, ICRA 2000, pp. 1682-168, ere 

Masatoshi Okutomi, Takeo Kanade, „A multiple-baseline stero” in ZEEE Tr 
(PAMI), vol, 15(4), 1993, pp. 353-363, 
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perpendiculare pe dreapta centrelor camerelor. Notăm cu f,(x) şi f; (x) imaginile 


în camerele P, şi P, ale aceluiaşi punct Z al scenei 3D, a cărui adâncime o vom nota 


cu z. Fie dr(i) diferenţa dintre coordonatele x ale imaginilor punctului Z. Aşa cum s-a 
arătat mai sus relaţia dintre coordonata z a punctului Z şi distanța B; dintre centrele 


i ‘ i B. 
camerelor P, si P., considerând camerele calibrate este: du) = f—-, unde f este 
Z 


distanța focală a primei camere. Vom modela nivelele de gri f,(x) şi f;(x) ale 


imaginilor aceluiaşi punct din spațiu potrivit formulelor: 
f(x) = f(x) + no) 


f(x) = f(x — dp) +n; (x) 


unde n,(x), n,(x) reprezintă zgomot alb gaussian: n, (x), n; (x) ~ N(0,02 Yc 


Fig, 12. Traiectoria robotului. 


f 
| Se defineşte suma pătratelor diferenţelor e; pentru o fereastra W centrată în 
| poziţia x a pixelului de intensitate fọ (x) pentru posibila disparitate do) a pixelului 


pereche din a doua imagine ca fiind; 


| C45) (Ky) = Ste, (x + j)-f (x + dq) + if 


jeW 
Valoarea medie a lui cu (do) este: 
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Eley Kdo )- P (r(x +})-£(x +d) -d ý) ++ n+ i-ak +dyy |: j 


jew 


= [ze +] hc do -dw + iy] 
Soler) re a -do + nol +n (+d, +5) E 


jew 


Flubcri)-niferdy +5) 
jew 


> (F(x +i)-fx +d -dw + y| 2N „0% 
jaw 
unde N,, este numărul pixelilor din fereastra W. Este evident că funcția €4,;, (xdg) 


va avea valoarea minimă pentru d = d,q)» adică in pixelul din a doua imagine 


având disparitatea reală d,,;). 
Presupunând că în cele două imagini în jurul pixelilor x şi x+a există aceeaşi 
configurație de nivele de gri, adică f (x + j) =i (x +j+ a), je W, vom avea: 
Bleu (4,4) = Elso acy + a))=2N,0; 
În această situaţie vom avea o falsă pereche a pixelului x având, in imaginea 
= adoua, disparitatea d, +a. 


2 : : ; 5 1 
În continuare vom nota cu ç inversul distanței z, 6 = —. Avem: 
Z 


do) =B;fç, di) =B;fs,. 


Suma pătratelor diferențelor egg) devine: 
E) = Dae (x at j)- f(x +Bifc + iy 
jeW 


Jar valoarea medie a acesteia: 


Elen (s,))= X (F(x + j)- f+ B,f(G—c,) +) +2Nyo? 
jew 
Se definește o nouă funcţie de evaluare ca fiind suma funcţiilor ec) (4.8) 
pentru n sisteme stereo; : 


Cr a) % ç) = Dy fei) (x, ç) 


jel 
Valoarea medie a acesteia este: 
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Elenan (*;9)]= a 
ST (F(t =F (e+ BG -6,) +I)! +2N yop 


i=) jeW i 

în continuare utilizând noile funcţii de evaluare vom arăta cum ambiguitatile 
în stabilirea corespondentelor pot fi eliminate. 

În cazul f(x + j) =f(x+j+ a),j e W, pentru două sisteme stereo având 


baseline-ul Bj, respectiv B2, funcția Eles) (x,c)| este: 
d Av) 
Blea (xo) = DF + i)- Fl + Bt(6-c) +I) + 
jeW 

(fc +i)- f+ BrfG-5,) +i) +4Nwo 
jeW 
Okutomi şi Kanade demonstrează“ că: 
Ele.as(x.¢)|> 4N 07 = Ele.ax)(x.s,)] pentru orice ¢#G,. 
aşi O altă amibiguitate va fi rezolvată în felul următor. Considerând funcția f(x) 

periodică, având perioada T, funcția e FSG), va fi la randul ei periodica, de 


: T Per : 
perioadă ——. Ceea ce înseamnă ca eas) va avea minime la intervale de 


ca | i 
| 3 T SR IA ; aon ; 
| lungime ——. Utilizând, ca mai sus, două sisteme stereo funcția ©. (X25) va 
i 
rămâne periodică dar având perioada cel mai mic multiplu comun al perioadelor 
piei 29 A 3 
— şi — . Alegând B, si B, de valori apropiate ambiguitatea este înlăturată. 
PRB fe 
| 3.3. Urmărirea trăsăturilor 
| Odată extrase caracteristicile din fiecare imagine a unei perechi de imagini 
consecutive Ii, I, urmează stabilirea corespondentelor dintre acestea. Se foloseşte 
2) criteriul sumei normalizate a pătratelor diferențelor aplicat pe vecinatati MxM ale 
> caracteristicilor a căror corespondenţă urmează a fi testată: 


47 E m p E . a a 
Masatoshi Okutomi, Takeo Kanade, „A multiple-baseline stero” în ZEEE Transactions on Pattern 


Analysis and Machine Intelligence (PAMI), vol. 15(4), 1993, pp, 353-363, 
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Speni hay iY 


M 


vet Nha 


M N M M 
S Shui) Si 2) ACE) 
M îi M : 


M 


Qama Vas err Meigi 


Sa Te) 

unde | şi Î, sunt mediile nivelelor de gri din cele două vecinatati MxM. De obicei — 
=13. 

ar Se calculează criteriul (118) utilizând candidați pereche pentru colțul curent 
din prima imagine dintr-o fereastra de căutare de dimensiune 70x70 în cea de a doua 
imagine centrată în jurul pixelului de aceleaşi coordonate cu colțul curent din prima 
imagine. Pentru eliminarea zgomotelor stabilirea perechilor se face aplicând criteriul 
(118) atât pornind de la imaginea precedentă şi cautând într-o fereastră 70x70 în jurul 
poziţiei caracteristicii curente în imaginea curentă cât şi inversând ordinea celor două 
imagini. Se aleg corespondentele care au valori maxime locale aproximativ egale în 
ambele sensuri. Odată stabilite corespondentele se determină, cum se va vedea mai 
jos, transformata euclidiană dintre sistemele robotului în poziția curentă şi poziția 
precedentă. Utilizând această primă estimare a transformatei euclidiene caracte- 
risticile 3D din baza de date sunt proiectate apoi în imaginea curentă. Se stabilesc 
iarăşi perechile de corespondențe de data această însă pentru ferestre de căutare de 4- 
5 pixeli şi se calculează din nou transformata euclidiană care ar suprapune 
corespundentele in imagini cât mai exact. Transformata euclidiană finală în pasul 


respectiv rezultă din corectia primei transformate folosind-o pe cea calculată în pasul 
doi. 


3.4. Estimarea mișcării: calculul poziţiei robotului în sistemul de 
referință extern 


Estimarea deplasării robotului este un proces iterativ care calculează 
transformarea euclidiană (rotații şi translatii) a sistemului robotului în poziţia curentă 
în raport cu sistemul robotului în poziţia precedentă. Vectorul de mişcare al 


robotului, care trebuie determinat, este: (Dx,Dy,Dz,&,,&,,@;), unde 


(Dx,Dy,D,) este vectorul translatiei originiii sistemului robotului în raport cu 


sistemul robotului în poziţia precedentă iar %,,% ,, Sunt unghiurile de rotaţie ale 


sistemului robotului în noua poziţie faţă de axele OX, OY 


we tu i OZ i i 
robotului în poziţia precedentă. : ieee 


Se pleacă de la o transformată euclidiană inițială, Fie P, (X ts aa AD 
Wl? Sil “itl 


caracteristică 3D rezultată în pasul 2, exprimată în sistemul robotului din poziția 
precedentă, Aceeași caracteristic 


ă are coordonatele P.(X,,Y,,Z.) în ur 
lului similar din pasul 2 efec re ste BCX, Yi, Z,) în urma alayi 
pasul « efectuat pentru poziţia precedentă a robotului 
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În continuare detaliem procedura de calcul a transformatei euclidiene (R, t), 
unde R este matricea de rotaţie iar t vectorul translatiilor. 
Avem: 

Pa = RP, +t (119) 
„Se lucrează în ipoteza unui model general al camerei, modelul proiecției 
ale (pinhole camera), unde relaţiile dintre coordonatele 3D ale punctelor din 


lumea reala, exprimate în sistemul de referință al camerei, şi coordonatele imaginilor 
acestora, din planul imaginii, sunt: 
t 
RoR t fX; fY; 
ai Abd A ests 120 
a wil E Zi (120) 


py; sunt coordonatele din imagine ale punctelor P.(X;,Y,,Z;), exprimate 
temul de referință al camerei iar f este distanța focala, presupusă cunoscută 
intru-că camera a fost în prealabil calibrată. 
= Dinrelaţiile (119) şi (120) rezultă: 
"E nX; +0, Y, +1,Z; +t _ Ty Xi tty Y; H34; +t, 
DA ET) Dc CA ZE ee per, FZ; +t, 


$ 


(121) 


Tjcu i,j = 1,3 reprezintă elementele matricei R, exprimate în funcție de 


unghiurile de rotație 9» 42» în jurul celor trei axe ale sistemului de coordonate al 
robotului în poziția curentă: 


e 
i r,, = cos(a, )cosla, ) 
] ry = cos(a, )sin(a, )sin(«, )- cosa, )sin(«, ) 
r = sin(a, )sin(0,)+ cos(a, )cos(a, )sin(a, ) 
r, = cos(., )sin(a; ) 
fy = sin(c, )sin(o, )sin(o,)+ cos(a., )cos(a. ) 
r,, = cos(a, )sin(o., )sin(c., )- sin(x, )cos(cx, ) 
ZI Ta = -sin(o., ) 
a r, = cos(o., )sin(a, ) 
: r,, = cos(a, )cos(or, ) (122) 
5 Problema care se pune este aceea a determinării unghiurilor de rotație a, şi a 
je vectorului translafiilor t = lt, torts | , care introduse în (119) minimizează erorile: 
lui OX, =X; (01,042,015 titz ts)= Xia 
E BY; =y; (020 ti starts Yin (123) 
ya În (123) Xj,)¥j,, Sunt imaginile trăsăturilor extrase în poziția curentă, 


corespunzătoare trăsăturilor X; , Yı din poziția precedentă, 


De LLM, 


Asahi e 
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‘ . +... 4 . ee 9 

Pornind de la o primă aproximare sau soluție inițială a matricei de rotații R 

şi a vectorului translatiilor t erorile (123) pot fi aproximate printo dezvoltare 
Taylor de ordinul întâi într-o vecinătate a parametrilor curenți aşa încât: 


ye was ye yu Aa.]=5 (124 
` T i Ôt; 00 
Se urmăreşte aşadar determinarea variațiilor AQ j, At, , j=1,3 din (124) în 


condiţiile în care 5x,, Sy; se cunosc din (123), pentru valorile curente ale unghiu- — 


ilor di i tiv translatiilor, iar derivatele on on nbs Ciu au o 
rilor de rotaţie, respectiv slatiilor, at, 6 do,” at, ; du, 


expresie analitică cunoscută ori pot fi aproximate prin diferenţe finite pentru a fi 
calculate sau estimate pentru valorile curente ale parametrilor. După calculul 
variațiilor Aa;,At,, noile valori ale translatiilor se calculează după formula: 


tin =t; + At; iar cu valorile Aa; se formează o matrice provizorie a rotatiilor care 
înmulțită la dreapta cu R,, matricea curentă a rotatiilor, va conduce la o noua 
valoare R ,,, a rotatiilor. Procesul este reluat până când eroarea (123) scade sub un 
anumit prag sau se depăşeşte un număr maxim de iterații, stabilit anterior. Pe 
parcursul procesului iterativ sunt reținute valorile &, şi t,care au condus la cele mai 


mici valori ale erorilor (123). Metoda iterativă de mai sus este metoda clasică de 
optimizare Gauss-Newton. 
Lowe propune“ o altă metodă de rezolvare a ecuaţiei (119), în forma: 


|] ERE t) (125) 


Translatiile de data aceasta sunt efectuate înaintea rotatiilor. Ecuația de mai 
sus este reparametrizată în sensul că (Pe, —t) devine P, iar componentele t sunt 
exprimate in sistemul de coordonate al imaginii si nu al sistemului robotului. Deci 
(125) devine: 

t 
[ E Z] = RP; (126) 
iar (120) se transforma in: 
t 
f fXi fYi 
Yia] -| +Dx; - ID), (127) 
Zi + Dz Zi t Dz 

Prin urmare se pune problema determinării translațiilor D 2 Dy:Da 
unghiurile fiind aceleași ca și în cazul precedent, adică QŒ. De notat că 
translatia pe axa Z își păstrează semnificaţia din cazul clasic. 
Relaţia dintre t din (125) şi Dx,Dy,D, este dată de: 


46 : 
David G, Lowe, „Fitting Parameterized 'Three-Di si 
D j n n are “Dimensional Models to Images” în JEEE 
Transactions on Pattern Analysis and Machine Intelligence (TPAMI) vol. 13(5) 1991 pp, 441-450. 
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T= R°! | D,(Z+D,) _Dy(Z+D2) -n| (128) 
f ; f ’ Z 
Avantajul acestei parametrizări constă în faptul că derivatele coordonatelor 


Xp YZ, deci şi ale imaginilor x,,y, sunt extrem de simple în raport cu unghiurile 


otaţie. De exemplu, derivata lui X, în raport cu 4, unghiul de rotaţie în jurul 


ei 2 este - Y; . Aceasta rezultă din faptul ca: 


(X. Y,,Z,)=(reosa,,rsine,,Z, ), 
unde r este distanța punctului față de axa Z. 


OX; 
Deci —-=-rsina, =—Y;. 
3 
- În tabelul de mai jos sunt date toate derivatele coordonatelor XYZ în 
p cu unghiurile de rotaţie. 
oie g fi 


Tabelul 1. Derivatele coordonatelor X;, Y; , Z; în raport cu unghiurile de rotaţie 


Cre Op OLS 


Calculul derivatelor coordonatelor din imagine ale punctelor este destul de 
simplu. De exemplu, din (127) rezulta: 


i= iD S =1 
Zi + Dz OD, 
Di aan Saal ela Oly 
Con a De 0x, (7 +D.)- da, 
Din tabelul 1; DX 7, si — 9z =-X, 
do» do 


Deci; Oxi fo(Z, + cX? ), unde ¢ = 
Ou2 Zi +D, 


În tabelul următor sunt figurate derivatele parțiale ale coordonatelor din 
imagine X;şi y, în funcţie de parametrii de calculat, Dy, Dy D233. Din 
acestea se construiește iacobianul, Revenirea la formula (125) se face aplicând (127). 
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Tabelul 2. Derivatele parțiale ale coordonatelor din imagine în funcție de translaţii şi 
unghiurile de rotaţie 


Aşa cum s-a spus mai sus folosind această primă estimare a transformatei 
euclidiene caracteristicile 3D din baza de date sunt proiectate apoi în imaginea 
curentă. Se stabilesc iarăşi perechile de corespondențe de data această însă pentru fe- 
restre de căutare reduse, de 4-5 pixeli şi se calculează din nou transformata euclidia- 
na care ar suprapune corespondentele in imagini cât mai exact. Transformata eucli- 
diană finală în pasul respectiv rezultă din corectia primei transformate folosind-o pe 
cea calculată în pasul doi. 

În etapa a doua, de rafinare a transformatei euclidene care indică poziția 
robotului în poziția curentă în raport cu poziția precedentă se memorează erorile 
dintre proiecţiile în imaginea curentă a coordonatelor 3D ale trăsăturilor şi 
corespondentele lor din imaginea curentă adică: 


fX; fYi 
lE E Sis =| DS E, = i+ —_———— + 
A ss y SA arpa K 


Începând cu a patra iteratie sunt eliminate perechile pentru care eroarea 


[g2 2 A ber Be 
es. E, este semnificativă şi procesul continuă cu restul corespondentelor. 


La sfârşitul procesului iterativ poziţia robotului este memorată în baza de 
date. Totodată se reţine şi poziția trăsăturilor din imaginea curentă. Baza de date este 
de asemenea actualizată în sensul incrementării contorului de vizibilitate ale tuturor 
trăsăturilor vizibile în imaginea curentă, decrementării contorului trăsăturilor a căror 
proiecție este în afara imaginii curente şi eliminării trăsăturilor invizibile în ultimele 
cinci poziţii ale robotului. 


y 


3.1. Corectia poziţiei robotului şi a coordonatelor 3D ale trăsăturilor 
scenei 


Pentru a contracara erorile de măsurare ale caracteristicilor scenei şi de 
localizare a robotului, deci de trasare a traiectoriei lui, se fololsesc filtre Kalman 
Fiecărei trăsături active din baza de date i se asociază un filtru Kalman. De 
asemenea, un alt filtru Kalman este folosit pentru corectia poziției robotului Filtrul 
Kalman folosit pentru rafinarea poziţiei sistemului stereo (robotului) este: 
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X FX, +6, (129) 
z, = HX, +n, (130) 


unde Eer. Zsa 0 XY, ARA] este variabila de stare în 
poziția k a robotului, F este o matrice constantă 12x12 definită de Saeedi, Lawrence 
şi Lowe! é şi my sunt vectorii zgomotelor aferente sistemului gi observaţiilor, H 
este o matrice 6x12 de forma [I N] 

cul matrice unitate 6x6 şi N matrice nulă 6x6. 


Si caer este: 


Na 


Reo =FX(k|k) (131) 


Ry ; i 3 : ae Ph. 
N ÎN oiana cu P(k | kK) matricea de covarianță a procesului covarianta predictiei 


P(k +1|k) = FP(K|K)F' +Q(k) (132) 


unde Q este o matrice 12x12 constantă determinată experimental, asociată zgo- 
© motului procesului. 


Predictia măsurătorilor este dată de: 
z(k+1|k) = HX(k +1|k) (133) 
Noua poziţie a robotului, Xs, se obține actualizand vechea pozitie X(k | k) 


cu transformata data de Dx» Dy» D2; 0,0, calculati in etapa 6 de estimare a 
mişcării robotului. Notând tranformarea respectivă cu (Dx, Rx) avem: 


| 
| 
| 
| 
| 
| 


a 
Xis = [Rx [xk | k)]+ Dy (134) 
je | Matricea de covarianță a măsurătorilor, notată Ris, se actualizează în etapa a 
e doua a procesului de determinare a poziţiei robotului. 
or Notând cu J matricea sistemului (124) avem Rese 
A Pentru fiecare pozitie a robotului filtrul este actualizat dupa cum urmeaza: 
de 
aD 
pe 
J 
ru 49 Parvaneh Saeedi, Peter D, Lawrence, David G. Lowe, „Vision-based 3-D trajectory tracking for 


unknown environments” în JEEE Transactions on Robotics, feb. 2006, vol. 22, pp. 119-136. 
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P(0| 0) = Var(X,) 
P(k+1|k) = FP(k| k)F' + Q(k) 

Wk +1) = P(k +1] k)H'[HP(k +1] k)H' + Rus] 

P(k +1] k +1) = P(k +1] k)— Wk +1)HP(k +1 k) 

X(k +1] k) = FX(k |k) 

z(k +1|k) = HX(k +1] k) 

X(k +1] k +1) = X(k+1|k) + Wk +1)(X,, -z(k +1|k)) 


Aşa cum s-a spus câte un filtru Kalman este asociat şi fiecărei trăsături 3 


statice din scena reala, trăsătură activa în procesul stabilirii traiectoriei adică vizibilă 


în imaginea curentă. Filtrul asociat trăsăturii w(X,Y,Z) este descris de ecuaţiile: 
-l =] t -1 
Cia Ce + Aga Vi Ana 


+1 
Waa = We thy (RE = AyaWs) 
t 
Kya =e Cp Ana Ven 
unde C, exprimă incertitudinea estimării coordonatelor trăsăturii w(X,Y,Z), k, este 
câştigul filtrului, b, reprezintă coordonatele 3D rezultate din măsurătorile din ima- 


gine iar V, este covarianta erorilor. 


Concluzii 


Capitolul este o sinteză a principalelor tehnici de reconstrucţie din imagini 
multiple ale unor obiecte în mişcare, tehnici prezentate în literatura de specialitate. 
Sunt discutate mai întâi cele mai performante tehnici de reconstrucţie afină din 
imagini obţinute în principal prin proiecţie ortografică. Se porneşte de la analiza 
mişcării unui singur corp rigid, după care studiul este extins la analiza mişcării unui 
număr necunoscut de obiecte rigide. În ceea ce priveşte reconstrucția proiectivă 
studiul se rezumă la analiza mişcării unui singur corp rigid. În ultima parte este 
prezentată o aplicaţie de urmărire a unui robot mobil, pornind de la lucrarea „Mobile 
Robot Localization and Mapping with Uncertainty using Scale-Invariant Visual 
Landmarks”*, 


50 at oe ; i 
epee Se, David 9 Lowe, James J, Little, „Mobile Robot Localization and Mapping with 
ncertainty using Scale-Invariant Visual Landmarks” în International Journal of Robotic Research, 

vol. 21(8), 2002, pp, 735-760, 
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ah Metode de analiza şi extragere 
i în caracteristicilor esenţiale din imaginile digitale 


pe af ADRIAN CIOBANU! 


ABSTRACT. Due to the availability of digital cameras there is a tremendous 
increase in the number of available digital images, for instance, on the Internet. 
- Finding a particular image can be almost impossible by browsing, as searching 
“through text is not available for the majority of the images. There is no time for 
manually annotate all the available images, so the only solution is the automatic 
annotation based on image content, i.e. based on color, texture, shape and other 
- features. These features must be extracted for each image and stored in a database 
along with the images. As the number of images is so big, the features must be very 
economic in computational time and space required to be stored. In this chapter a 
ray review of the existing feature extraction methods that qualify as economic is 
„presented as a necessary step before trying to propose new methods in this field. 


KEYWORDS: feature extraction, color features, texture features, shape features, 
image retrieval, similarity. 


1. Introducere 


Analiza si procesarea imaginilor constituie unul dintre cele mai interesante şi 
dinamice domenii din cadrul ştiinţei calculatoarelor. Interesul pentru acest domeniu 
provine fie din nevoia de a îmbunătăţi informaţia vizuală destinată publicului, fie din 
nevoia de a procesa imaginile în vederea stocării, transmiterii şi reprezentării lor 
pentru uzul unor echipamente avansate, cum ar fi roboții industriali, vehiculele 
autonome etc. [Gonzalez, 2002}. În ultimele decenii se constată o maturizare a 
domeniului procesării de imagini prin implementarea unui număr din ce în ce mai 
mare de metode specifice acestuia în cadrul aplicaţiilor software utilizate frecvent, 
cum ar fi: teledetectia, diagnoza industrială, controlul vehiculelor, imagistica 
biomedicală şi supravegherea automată, pentru a enumera aici doar câteva dintre 
subdomeniile mai importante. Progresul în procesarea imaginilor se poate măsura şi 
prin numărul din ce în ce mai mare de programe de calculator şi echipamente 
specifice disponibile pe piaţă. Exemplul cel mai edificator este actuala avalanşă de 
aparate foto digitale, modele comerciale sau profesionale, cu caracteristici 


Adrian Ciobanu, cercetător ştiinţific, IIT, Academia Română, filiala laşi. 
2 Gonzalez, Rafael C., Woods, Richard E., „Digital Image Processing”, Prentice Hall, Upper Saddle 
River, NJ, 2002. 
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funcționale din ce în ce mai avansate, însoțite de programele de calculator aferente, ; 
destinate prelucrării şi tipăririi imaginilor digitale achiziționate [Sonka, 2008]. În | 
spatele acestei dezvoltări a domeniului stau însă eforturi susținute, mai ales de ordin 
experimental, necesare pentru a găsi cele mai viabile soluţii la problemele ce se cer 
rezolvate prin procesare de imagini [Gonzalez, 2009]'. a 

Una dintre primele utilizări ale imaginilor digitale datează încă din anii 1920. 
(cu mult înainte de apariţia calculatoarelor!) şi a constat în transmiterea de fotografi 
referitoare la evenimentele sportive de la Londra la New York, prin cablul submarin. 
care traversa Atlanticul, cu ajutorul sistemului Bartlane. Se reducea dur 
transportului unei fotografii de la o săptămână la mai puţin de 3 ore. Imaginile erau 
codate cu echipamente speciale la un capăt al cablului submarin, după care la celălalt 
capăt erau decodate şi tipărite cu o imprimantă telegrafică în doar 5 tonuri de gri 
(tehnologie care simula „halftone pattern”-ul utilizat mult timp după aceea la 
tipărirea fotografiilor din ziare). Până în 1929 tehnologia a evoluat, ajungându-se 
până la 15 tonuri de gri. 

Bazele calculatoarelor moderne au fost puse în 1940 de John von Neumann 
(prin conceptul de memorie pentru program şi date şi prin conceptul de salt 
conditional), dar primele calculatoare care au fost suficient de puternice pentru a 
prelucra imagini au apărut de abia în anii *60. Utilizarea calculatoarelor în acest 
domeniu s-a datorat cercetărilor din domeniul spaţial, efectuate la Jet Propulsion 
Laboratory (Pasadena, California), unde au fost corectate, cu ajutorul calculatorului, 
primele imagini transmise de pe Lună de modulul Ranger 7, la data de 31 iulie 1964. 
Deja la începutul anilor 1970 au apărut şi primele aplicaţii de imagistică medicală, în 
special cele legate de tomografia computerizată (CT). 

Din acel moment aplicaţiile procesărilor de imagini s-au diversificat din ce în 
ce mai mult: aplicații medicale şi industriale ale razelor X, imagistica aeriană şi sate- 
litară, restaurarea fotografiilor în arheologie, imagistica experimentelor cu plasmă de 
înaltă energie, microscopia electronică etc. Ele au devenit uzuale în astronomie, 
medicină nucleară, apărare şi industrie. S-au dezvoltat şi aplicaţii de prelucrare de 
imagini specifice funcționării unor echipamente speciale, pe ramura denumită în 
engleză „machine vision” sau „machine perception”: recunoaşterea automată a ca- 
racterelor (OCR), aplicaţii pentru roboții de pe liniile de asamblare şi control 
industrial, recunoaştere militară, procesarea automată a amprentelor digitale, evalua- 
rea automată a radiografiilor şi probelor de sânge, procesarea automată a imaginilor 
satelitare pentru prezicerea vremii sau pentru evaluarea mediului înconjurător 
[Gonzalez, 2002)’. 


So ile avac ac > ap - ; ; eion 
nka, Milan, Hlavac, Vaclav, Boyle, Roger, „Image Processing, Analysis, and Machine Vision”, 


} International Student Edition, Thomson, 2008, 
Gonzalez, Rafael C., Woods, Richard E., and Eddins, S iei j 
ZANCZ, , 5, é pf ; 8, Steven L., „Digital Image Pr ] n 
MATLAB”, Gatesmark Publishing, 2009, gita, mage Procesa 
Gonzalez, Rafael C., Woods, Richard E., „Digital Image Processing”, Prentice Hall, Upper Saddle 


River, NJ, 2002. 
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1.2 Imagini digitale 


Pentru a simplifica introducerea, considerăm mai întâi o imagine digitală 
doar în tonuri de gri. O imagine poate fi definită ca o funcţie bidimensională f(x,y), x 
şi p fiind coordonatele unui punct din cadrul imaginii şi mărimea f(x,y) fiind 
denumită intensitatea sau nivelul de gri al imaginii în punctul determinat de perechea 
(x,y). Dacă valorile x, y, şi f(x,y) sunt finite sau discrete, atunci se poate spune despre 
o imagine că este digitală. Practic, o imagine digitală este formată dintr-un număr 
finit de elemente care au fiecare o anumită locaţie şi intensitate, denumite elemente 
de imagine sau pixeli. Termenul pixel (derivat din englezescul „picture element”) 
este cel mai încetățenit la ora actuală şi va fi folosit în acest capitol. 

Vederea este cel mai avansat simț al omului şi de aceea nu este întâmplător 
rolul extrem de important pe care îl joacă imaginile în percepţia noastră despre lume 
[Gonzalez, 2002]°. Oamenii sunt capabili de a sesiza o anumită bandă din spectrul 
electromagnetic al radiaţiei luminoase, de aceea o importanță deosebită o au imagi- 
nile color. În acest caz funcţia f(x,y) nu mai are o singură valoare, ci poate avea trei 
valori, sub forma unui triplet (R,G,B), unde fiecare componentă reprezintă nivelul de 
eri din cadrul spectrului roşu, verde şi, respectiv, albastru. Este cazul spațiului de 
culoare RGB, unul dintre cele mai utilizate în afişarea imaginilor digitale color pe 
ecranele de televiziune sau pe calculatoarele uzuale. 

Însă, în cazul unor echipamente speciale, imaginile nu sunt limitate la 
spectrul vizual uman, acoperind întregul spectru electromagnetic, de la razele gamma 
şi până la undele radio. În plus, au apărut numeroase surse de imagini necon- 
ventionale generate în cadrul ultrasonografiei, microscopiei electronice sau chiar 
generate pur şi simplu de calculator. 


1.3 Problematica regăsirii imaginilor digitale 


Utilizarea imaginilor în cadrul comunicării interumane datează încă din 
vremuri preistorice, exemplul clasic fiind picturile rupestre. Chiar înainte de epoca 
romană au fost folosite hărți şi planuri de construcţie a imobilelor. Totuşi, niciodată 
nu a existat o creştere atât de importantă a numărului de imagini digitale, a gradului 
lor de accesibilitate si a importanţei acestora în toate aspectele vieții de zi cu zi, cum 
s-a întâmplat în ultimii zece ani. Dacă iniţial motorul acestei evoluții a fost fotografia 
gi televiziunea, rolul a fost preluat apoi de calculatoarele personale şi dus la extrem 
de multitudinea de aparate fotografice digitale disponibile acum. Odată cu dezvol- 
tarea Internetului, s-a ajuns ca un utilizator obişnuit să poată accesa acum miliarde de 
fotografii pe un simplu laptop. O primă aplicaţie de prelucrare a imaginilor 
(Sketehpad — aplicaţie de creare, manipulare şi înmagazinare a imaginilor, dezvoltată 
de Ivan Sutherland [Eakins, 1999]’) a apărut încă din 1965, însă prețul exorbitant al 
echipamentelor necesare a făcut ca de abia pe la mijlocul anilor 1980 să înceapă să 


Idem. 
Eakins, John, Graham, Margaret, „JISC Technology Applications Programme Report #39”, 
University of Northumbria at Newcastle, October 1999, 
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fie utilizate astfel de aplicaţii pe scară largă. Valoarea echipamentelor a devenit — 
accesibilă doar datorită industriei jocurilor de calculator, care a dus la comercia- 
lizarea în masă a calculatoarelor şi la scăderea prețurilor acestora, inclusiv a compo- 
nentei celei mai importante a acestora, placa video. ; a 

Faptul că imaginile sunt acum cu preponderență de tip digital nu înseamnă că 
sunt mai uşor de gestionat. Din contră, rata mare de creştere a numărului de fotografii 
digitale disponibile face improprie căutarea sau regăsirea lor prin răsfoire (browsing), 
iar metoda indexării lor pe bază unor adnotări textuale nu poate face nici ea față în 
contextul exploziei numărului de imagini disponibile pe Internet, deşi este singura 
disponibilă. Pur şi simplu nu mai este timp pentru ca un operator uman să adnoteze, 
printr-un număr oarecare de cuvinte cheie, fiecare imagine digitală existentă. De 
aceea, o soluţie la această problemă este considerată autoindexarea imaginilor 
digitale pe baza conţinutului lor, adică pe baza caracteristicilor de culoare, textură şi 
formă ce pot fi extrase automat dintr-o imagine digitală. 

Există însă mai multe tipuri de atribute ale imaginilor digitale care ar putea fi 
folosite în procesul regăsirii lor ca date de intrare, cum ar fi: prezența unei anumite 
combinaţii de culori, texturi şi forme (de exemplu, benzi orizontale galbene), pre- 
zenta unui anumit aranjament de obiecte (scaune în jurul unei mese), apartenența la 
un anumit tip de evenimente (în cadrul unui meci de fotbal), prezența unei persona- 
lităţi, o anumită locaţie sau un anumit eveniment (prezența lui Ilie Năstase la BCR 
Open), emoții subiective asociate cu o imagine (fericire) şi metainformatiile de tipul 
datei la care a fost făcută fotografia sau imaginea, de către cine şi în ce loc (exprimat, 
eventual în coordonate geostationare). 

In mod similar, există mai multe tipuri de căutări, clasificate pe trei nivele 
[Eakins, 1999]*: nivelul 1, al caracteristicilor primitive, de gen culoare, textură, for- 
mă şi al interrelatiilor spatiale între elementele din imagine; nivelul 2, care constă în 
caracteristici derivate sau logice privitoare la identitatea obiectelor conținute de ima- 
ginile digitale; şi nivelul 3, care constă în caracteristici abstracte, care implică un 
raționament de nivel înalt cu privire la înțelesul şi rolul pe care îl joacă obiectele în 
cadrul scenelor reprezentate de imaginile digitale. În numeroase lucrări, nivelele 2 şi 
3 sunt referite ca regăsire semantică a imaginilor, şi este cât se poate de clasică 
formularea „decalaj semantic” (semantic gap) în ceea ce priveşte saltul de la nivelul 
1 la nivelul 2 de interogare. Decalajul semantic este foarte important şi nu a putut fi 


încă depăşit de sistemele de regăsire a imaginilor pe bază de conținut (CBIR — 
Content Based Image Retrieval). 


1.4 Trăsături reprezentative pentru imaginile digitale color 


Orice sistem de regăsire a imaginilor are la bază un proces de prelucrare a 
acestora, în vederea extragerii unor caracteristici sau trăsături care să le reprezinte. 
pi proces de atribuire a unui set de descriptori de identitate (indecsi) pentru 
fiecare imagin sc regasiril r imagini r ial i ărtării 

gine, cu scopul regăsirii unor imagini relevante şi al îndepărtării celor 
8 3 . 
Eakins, John, Graham, Margaret, „JISC Technology Applications P 


‘ i > gy 
University of Northumbria at Newcastle, October 1999, regat Repor 
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Cia. irelevante, se numeşte indexare. Indecşii sunt memorati în baza de date, alături de 
po. imagini, şi este de preferat să fie proiectati în vederea eficientizării re isiti imagi- 
nilor. Trăsăturile pot fi de origine diferită: de culoare, de formă, de Ara a 
ă că sionale, de distanţă, de poziţie relativă etc ŞI pot coexista în cadrul bazei de date 
rafij pentru o descriere cât mai completă a imaginilor. 
ng), in momentul in care baza de date este interogată pe baza unei imagini, fie se 
A în calculează trăsăturile ei pe baza aceluiaşi proces de prelucrare aplicat imaginilor din 
ae baza de date, in cazul In care avem imaginea este noua, fie sunt extrase din baza de 
Eo date trăsăturile ei deja calculate, dacă imaginea a fost deja indexată în baza de date. 
| De Sarcina de regăsire a imaginilor asemănătoare este îndeplinită de un motor de 
To evaluare a asemănării imaginilor, care compară trăsăturile imaginii de intrare cu 
$ E trăsăturile celorlalte imagini din baza de date Mecanismul de asemănare a imaginilor 
i 


atat, i de date sunt ordonate în funcție de 
ea fi coeficientul lor de similaritate/potrivire cu imaginea de intrare şi un anumit număr 


dintre imaginile cele mai similare sunt prezentate utilizatorului pentru evaluare. 


2. Trăsături de culoare 


Similaritatea imaginilor digitale color poate fi evaluată pe baza definirii unor 


at, | trăsături de culoare robuste şi eficiente care să reprezinte conținutul coloristice al ima- 
| ginilor. Deocamdată nu a fost descoperită cea mai bună reprezentare, recurgându-se 
fele | la mai multe tipuri de reprezentări care caracterizează culoarea unei imagini din 
for- | perspective diferite. De regulă însă, orice caracteristică a unei imagini este necesar să 
tă în aibă următoarele proprietăți de bază: ae 
ima- e similaritate perceptuală — distanța dintre trăsăturile extrase pentru două imagini 
4 un să fie mare doar dacă imaginile nu sunt similare; 
Je în e eficiență — să poată fi calculate într-un timp scurt, Sane ee 
2 şi e economie — să aibă dimensiuni mici, pentru a nu fi afectată eficiența regasirii 
sich Eee i i să indă foarte mult de numărul de 
velul | e  scalabilitate — performanța sistemului să nu depindă foarte mult de ă 
fi | imagini din baza de date; id Ce See eee a 
tul T * robustete — schimbarea condițiilor de achiziție a imaginilor digitale să nu afec- 
ee | teze regdsirea acestora [Schettini, 2001 le 
| Trăsăturile de culoare trebuiesc însoțite de o funcție de similaritate disi 
| milaritate de tip distanţă, care să satisfacă următoarele proprietăți pentru oricare trei 
| imagini /, J și K din baza de date: 
E l, d(1,1),d(1,7),d(J, J), RI K) dK, K) = 0 
a a TUE ]) = dJ Jya d(K,K) — auto-simetrie 
zj 
nt ve Othol rina 4 eirieval îi Xo, - Ime 
celor ” Schettini, Raimondo, Ciocca, Olanlulg), 205 Asin ene os lh ee pe 


Databases”, Chapter 10 in Colour Imag 
MacDonald, M. Ronnier Luo, John Wiley 


& Sons, England, 2001, pp. 183-213. 
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3. dUJ)dU,K) 2 dU,1) — minimalitate 
4. dU,J)=dU,D,dU,K) = d(K, 1) — simetrie 
5, d(UI,K)+d(K,J/) 2 d(,J) — inegalitate triunghiulară 


Proprietăţile 1, 2, 3 şi 5 definesc o metrică, iar proprietăţile 1, 2, 3, 4 definesc 
o măsură de similaritate [Schettini, 2001]. 4 

Indexarea imaginilor pe bază de culoare are la bază faptul că, de cele mai 
multe ori, culoarea codifică o anumită funcționalitate sau caracterizează un anumit 
lucru. De exemplu, semnele de circulaţie folosesc anumite culori, drumurile au o 
anumită culoare, pădurile sunt verzi, cerul este albastru etc. Deoarece culoarea nu ne 
permite şi identificarea obiectelor, se recurge şi la caracteristici de textură ŞI formă 
pentru a realiza identificarea. Cu toate acestea, culoarea are o importanță primordială 
în indexarea imaginilor datorită rapiditatii cu care poate fi analizată, rezultatele 
căutării coloristice în baza de imagini putând fi ulterior filtrate prin aplicarea unor 
metode mai lente care implică segmentarea, textura şi forma, pentru îmbunătățirea 
calităţii rezultatelor [Stricker, 1995]. 


2.1 Reducerea numărului de culori dintr-o imagine 


Orice demers de extragere a unor caracteristici de culoare dintr-o imagine 
trebuie să înceapă cu reducerea semnificativă a numărului de culori existente în 
imagine. Acest lucru se realizează prin divizarea spațiului de culoare. Putem exprima 
formal acest lucru prin trecerea, pe baza unei relaţii de divizare Q, de la un spațiu de 
culoare C cu n culori posibile la un subspatiu de culoare P cu doar m culori posibile, 


P={c,,c,,K se le, €C,m << n}: Q:C >P (1) 


Divizarea spatiului de culoare se poate realiza static sau dinamic. Dintre 
procedeele statice, cel mai simplu este luarea in considerare a unor biti cei mai 
semnificativi din octetii de codare a culorilor. O asemenea procedură nu are însă 
semnificaţie din punctul de vedere al percepției culorilor şi produce modificări 
majore ale imaginilor din punct de vedere coloristic. Alte metode statice sunt: 
partitionarea spaţiului de culoare, clusterizarea spaţiului de culoare şi utilizarea unor 
culori de referință. Procedeele dinamice implică utilizarea tehnicilor de seementare a 
imaginilor [Schettini, 20012, = 

Un exemplu clasic de reducere a numărului de culori este cel folosit de 
sistemul OBIC de la IBM, care face reducerea numărului de culori a celui mai uzual 
spaţiu de culoare, RGB, codat pe 24 de biti, de la circa 1,68 milioane de culori la 


numai 4,096, prin divizarea fiecărui plan de culoare în numai 16 nivele, în locul celor 
256 de nivele standard, 


Idem, 
Wong 
Stricker, M., Orengo, M., „Similarity of color images”, Proc. SPIE: S 
er, M., » M., 4»! 5 ges”, Proo, SPIE: Storage ie i 
E and Video III, San Jose, CA, USA, 1995, pp, 381-392, Orge and Revival O 
Idem 8. 
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Există numeroase exemple de reducere a numărului de culori, la câteva sute 
de culori, la 64 de culori sau chiar la numai mult de 11 culori de bază. Cu cât se 
utilizează o metodă mai sofisticată, implicând, de exemplu, tehnici de segmentare, cu 
atât se obțin imagini mai apropiate de cea inițială din punct de vedere coloristic, deşi 

a numărul de culori utilizate scade drastic în toate cazurile. Ideal ar fi ca în urma 
acestor prelucrări să se obțină setul de culori dominante din imagine. Chiar şi în 


nai cazul atingerii acestui ideal, aceste culori dominante ar fi foarte greu de utilizat ca şi 
nit caracteristici de imagine, pentru că numărul lor ar varia de la o imagine la alta şi, în 
l O plus, ele nu ar fi ordonate consistent pentru un set mare de imagini, ca să nu mai 
ne vorbim de cazul unui număr cvasi-infinit de imagini. Aceste două motive fac greu de 
mă comparat imaginile pe baza culorilor dominante, fiind foarte greu de găsit o măsură 
ala | de tip distanță care să aprecieze gradul de similitudine a imaginilor pe baza lor. 

e | 

Lor 

ea 2.2 Indecsi de culoare bazati pe calculul histogramelor 


Una dintre modalităţile cele mai uzuale de reprezentare a culorilor este 
calculul histogramei de culoare. Aceasta este un vector H =[h,h,,K „hale cărui 


componente /, contin numărul de pixeli de culoare k ce apar într-o imagine. 


Histograma de culoare este o caracteristică globală a unei imagini care estimează 
densitatea de probabilitate ca un pixel să aibă o anumită culoare. 

Dacă avem două imagini J, şi J, pentru care s-au calculat histogramele H’ si 
F bazate pe o aceeaşi paletă de m culori, gradul lor de similitudine poate fi apreciat, 


de exemplu, pe baza următoarei distanțe dintre histograme, numită intersecția 
histogramelor: 


m 


> min(h},n2) 


2 
È 1 aaa 2 2 
re A(t, rel (a 2) aie (2) 
A 2 
ai DIA 
să | k=l 
ri Dacă imaginile au şi aceeaşi dimensiune (sau histogramele au fost scalate ca 
t: să aibă aceeaşi dimensiune) şi sunt bazate pe aceeaşi paletă de culori, atunci se poate 
or aplica direct suma pătratică a diferenţelor (metrica L»): 
a 
A m A 2 = 
d(1,,1,)= d(H’, H?)= [Y (h-r) (3) 
je kel 
al sau chiar suma valorilor absolute a diferenţelor (metrica L4): 
Ja 
m A 
2 1 2 
j d(1,,1,)=d(H',H?)= Shin | (4) 
kal 
Rezultatele nu sunt însă prea bune la regăsirea imaginilor prin utilizarea 

acestor metrici, în principal din cauză că cele mai mici schimbări din histograme, 

datorate modificării condiţiilor de iluminare, pot duce foarte uşor la mărirea 
ze distanțelor dintre imagini și la luarea unor decizii eronate de nesimilaritate. De 
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asemenea, histogramele de culoare ale unor imagini similare pot fi foarte îndepărtate 


din punctul de vedere al acestor metrici simple (Stricker, 1995]'?. O oarecare 


îmbunătățire față de această situație se poate obține prin utilizarea histogramelor 
cumulative introduse de Stricker si Orego [Stricker, 1995]'*, in care componentele 


histogramei cumulative H (M ) sunt date de relația bazată pe componentele A, ale 
histogramei H(M): 


kel 

hy = Yh (5) 
isl 

O altă distanţă utilizată este distanța cosinus, de tipul: 


Sire 


d(t,1,)=a(H',H*)==cos" =e if TJA (6) 


> 


Au fost imaginate şi testate numeroase alte distanțe, bazate în principal pe 
x codarea similitudinii perceptuale dintre culori (inclusiv prin metode fuzzy). O 
ilustrare simplă a acestei direcţii este distanța propusă de Hafner [Hafner, 1995]: 


d(t,,1,)=d(H', H?)= (7 


unde coeficienţii aj codifică similitudinea dintre culorile 7 şi j şi se pot calcula pe 
baza unei expresii de tipul: 


d, 
a, =1- 5 (8) 
TES NC 
cu dy fiind distanţe euclidiene între culori într-o variantă de spaţiu de culoare de tip 


Munsell. 

Există mai multe alte variante de definire a coeficienţilor a,, din ce în ce mai 
complicate şi mai costisitoare din punctul de vedere al calculului lor, dar, la 
momentul utilizării lor în regăsirea imaginilor similare, toate se lovesc de problema 
neunicitatii histogramelor: aceeaşi histograma poate corespunde la mai multe imagini 
(de exemplu modificarea poziţiei unui obiect într-o imagine nu schimbă histograma). 

O variantă interesantă este şi utilizarea unei distanțe Hausdorf modificate, 
care pentru două imagini J; şi J, fiecare caracterizate se setul de culori C° şi C°, are 
expresia: 


i ai, 1,)= H(c',c?) = max(max geci Min acca dist(c',c*), MAX caca MIN acc dist(c',e*)) (9) 


din care rezultă distanța maximă dintre culorile din C’ şi C? (mai întâi se ia fiecare 
: 3 = 5 =) A + A n 
culoare din C’, se găseşte culoarea din C“ cea mai apropiată şi se formează un set de 


i Stricker, M., Orengo, M., „Similarity of color images”, Proc, SPIE; Storage and Retrieval of Image 
and Video III, San Jose, CA, USA, 1995, pp. 381-392, 
'4 Idem. 
Hafner, J, Sawhney, H,8., Esquitz, W., Flickner, M., Niblack, W., „Eficient color histogram 
indexing for quadratic form distance functions”, IEEE Trans. Pattern Analysis and Machine 
Intelligence, vol, 17, pp. 729-736, 1995 
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distanțe minime, din care se alege cea mai mare, după care se ia fiecare culoare din 
C se găseşte culoarea din C’ cea mai apropiată şi se formează un al doilea set de 
distanțe minime, din care se alege din nou cea mai mare, la sfârşit selectându-se cea 
mai mare valoare din aceste două distanţe partial alese). 

O ultimă consideraţie referitoare la utilizarea histogramelor pentru calculul 
indecşilor de culoare: chiar dacă ar fi rezolvate problemele reliefate mai sus, 
problema alegerii optime a numărului de componente ale unei histograme rămâne 
nerezolvată. Oricât de bună ar fi o anumită alegere, împărţirea plajei totale a 
histogramei în elemente mai mici va produce efectele nedorite ale oricărei 
cuantificari. 


2.3 Algoritmul centrului de greutate a culorilor (Chromatic 
barycenter algorithm)[Shiuh-sheng Yu, 1996]! 


Centrul de greutate al culorilor pentru o regiune dintr-o imagine este media 
valorii componentelor de culoare ale pixelilor din acea regiune. De exemplu, în 
iul RGB, dacă avem o regiune perfect verde, centrul de greutate al culorilor 
pentru această regiune va fi (0,255,0). 
„ Se poate defini o măsură a similarități s dintre două regiuni în funcţie de 
distanța d dintre centrele lor de greutate a culorilor: 


i duce 
ay an 


100%, dacă d < T; 
Ld 5 
s(d)= 100 % dacă T,<d<T> (10) 
- A 
) 0% dacă d >T, 


unde T; este stabilit în funcţie de sensibilitatea ochiului uman, de exemplu 1/128 din 
mărimea spaţiului de culoare (adică din numărul de nivele de gri luate în considerare 
pentru fiecare componentă de culoare), iar Tz poate fi un parametru de precizie, de 
exemplu 1/8 din mărimea spaţiului de culoare. 

Este clar că nu putem compara două imagini doar pe baza unui singur centru 
de greutate al culorilor. De aceea imaginile sunt împărțite într-un număr de sub- 
regiuni, se calculează similaritatile dintre regiunile corespondente ale celor două 
imagini, de exemplu A şi B, şi se face media acestora: 


Le AeA ee Ay 


fd i 


Sim(A, B) = Toata (4,8) (11) 
j=l 

3 unde 
4 A B 

d,(4,B)=|c/ -c| (12) 
e 
j 6 Shiuh-sheng Yu, Jinn-Rong Liou, Wen-Chin Chen, „Computational Similarity Based on Chromatic 
e Barycenter Algorithm”, IEEE Transactions on Consumer Electronics, vol. 42, nr. 2, mai 1996. 
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iar CĂ şi CE sunt centrele de greutate a culorilor ale regiunilor cu număr de ordine i 
din is pute şi B. Aa 


[Shiuh-sheng Yu, 1996]'’ se arată că regiunile de 3x3 pixeli pot fi luate în 


considerare ca o variantă practică pentru acest algoritm. În plus, există variante care 
pot compensa distorsiunile de culoare, diferențele de rezoluţie între imagini şi 
deplasarea culorilor. S-au obţinut valori foarte bune pentru rata de recunoaştere şi 
pentru precizia recunoaşterii. În plus, algoritmul se poate aplica şi pe componenta 
continuă a imaginilor de tip JPEG, ceea ce înseamnă că acestea nu mai trebuie 
decodate complet. Aceasta deoarece componenta continuă a coeficienţilor DCT 
reprezintă chiar centrul de greutate al culorilor. 


2.4 Momente de culoare 


Ideea folosirii momentelor pentru caracterizarea distribuției culorilor într-o 
imagine digitală vine din teoria probabilității în care se ştie că distribuţia de proba- 
bilitate este caracterizată în mod unic de momentele sale, respectiv de momentele 
sale centrale [Stricker, 1995]!5. Astfel, având în vedere că putem interpreta distribuția 
de culoare dintr-o imagine ca şi distribuție de probabilitate, rezultă că putem 
caracteriza distribuţia de culoare cu ajutorul momentelor. De exemplu, în cazul unei 
imagini RGB, separăm mai întâi planele de culoare R, G şi B, şi calculăm apoi în 
fiecare plan momentele de gradul 1, 2 şi 3. Momentul de gradul 1 reprezintă media şi 
deci astfel se pot determina nivelele medii de roşu, verde şi albastru, care luate ca 
triplet ne vor da culoarea medie a imaginii digitale. Momentul de gradul 2 reprezintă 
varianta sau deviația standard, în timp ce momentul de gradul 3 reprezintă asimetria. 

Pentru cazul general al unei imagini care poate fi separată în c planuri de 
culoare, iar pentru fiecare plan de culoare i avem valori ale pixelilor j G=1...N) 
notate cu py, atunci avem următoarele valori pentru momentele de gradul 1, 2 şi 3 
[Stricker, 1995]: 


1 N 
E Py Vi= (13) 
j=l 
şi se poate lua în considerare o măsură de similaritate de tipul: 
Arom zi 53 (wim ii M/| aP wa TA v| qP walai ay 42) (4) 


în cazul a două imagini A şi B, fiecare conţinând N pixeli. Ponderile wy au fost 
introduse pentru a permite ajustarea similarități în funcţie de specificul aplicaţiilor la 


Shiuh-sheng Yu, Jinn-Rong Liou, Wen-Chin Chen, „Computational Similarity Based on Chromatic 
Barycenter Algorithm”, IEEE Transactions on Consumer Electronics, vol, 42, nr. 2, mai 1996. 
Stricker, M,, Orengo, M., „Similarity of color images”, Proc. SPIE: Storage and Retrieval of Image 
and Video III, San Jose, CA, USA, 1995, pp. 381-392, 

Stricker, M., Orengo, M., ,,Similarity of color images”, Proc. SPIE: Storage and Retrieval of Image 
and Video III, San Jose, CA, USA, 1995, pp. 381-392. 
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care este întrebuințată această metodă. Spre exemplu, dacă se ştie apriori că toate 
n | imaginile au fost realizate în aceleaşi condiţii de iluminare, putem penaliza 
Sl diferențele de culoare medie prin considerarea unor ponderi w mai mari decât wy şi 
Şi respectiv Wis. Sipi 
i „Funcţia dmom este doar o măsură de similaritate deoarece s-au luat in 
k considerare doar o mică parte dintre momentele distribuției de culoare şi deci este 
R foarte posibil ca două distribuții de culoare diferite să aibă aceleaşi momente de grad 
T 1, 2 şi 3 şi să rezulte dmom=0. 


Er) f 


Este o metodă foarte populară pentru discriminarea obiectelor de acelaşi tip 
tilizată mult la recunoaşterea fetelor sub denumirea de Eigen faces. Practic, 


| tace o proiecție a imaginii dintr-un spațiu cu mai multe dimensiuni într-un 
o N mai puține dimensiuni, ceea ce conduce la obținerea unor vectori proprii 
e | lizează compactarea trăsăturilor unice ale imaginilor. Aceşti vectori proprii 
a | 


poi comparati unii cu alții în baza de date de imagini şi se pot regăsi astfel 
i similare. 

Înainte de a extrage vectorii proprii dintr-o imagine, este necesar ca aceasta 
fie preprocesată, ceea ce include următoarele operaţiuni: scăderea rezoluţiei 
imaginii de la 3 la 5 ori, decuparea precisă din imagine a obiectului de analizat (de 
"exemplu un tablou dintr-o expoziţie), identificarea unor puncte importante din 
imagine (cum ar fi colţurile unui tablou), transformarea de perspectivă a imaginii 
(cum ar fi cazul unui tablou fotografiat dintr-o parte şi care trebuie adus în imagine 
ca şi cum ar fi fotografiat perfect din faţă). Toate aceste preprocesări sunt necesare 
pentru că metoda este foarte sensibilă la diferente de luminozitate şi aspect existente 
între imaginile comparate. 

O ultimă procesare constă în scăderea valorii medii a intensității pixelilor din 
imagine din valoarea fiecărui pixel. După această operaţie se generează o matrice S 
pe baza vectorilor de imagine f, câte unul pentru fiecare rând de pixeli din imagine : 


S=( 1-a A) (15) 


Imaginile proprii e; sunt calculate apoi după metoda lui Sirovich şi Kirby, 
4) mai întâi ca vy; 

SS =Ayv,,Vi=1..M (16) 
st EI, 
ja $i apoi ca; 

e = Sy, (17) 
jc Aceste imagini proprii sunt calculate pentru componenta de luminanta a 

imaginii $i pentru componenta de roşu, iar pentru compararea a două imagini s-a 

Be dovedit eficientă distanța euclidiană dintre aceşti vectori proprii, numiți Eigen 
e images. 


d 
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2.6 Vectori de coerență de culoare (Color coherence vectors) [Pass, 


1996)" 

Coerenta unei culori este definită ca şi gradul in care pixelii din imagine 
corespunzători acelei culori fac parte dintr-o regiune relativ mare de pixeli de culoare 
similară. Regiunile de aceeaşi culoare dintr-o imagine sunt regiuni semnificative 
pentru caracterizarea şi compararea imaginilor. Metoda coerentei de culoare vine să 
îmbunătățească metoda histogramelor de culoare, prin aceea că pixelii din culorile 
care apar în histograme sunt în plus împărțiți în două categorii, pixeli coerenti, care 
fac parte din regiuni omogene de culoare, şi pixeli incoerenti, care sunt izolaţi printre 
alte culori. 

Etapele de procesare parcurse de această metodă sunt următoarele: 


e aplicarea unui filtru de tip medie pentru a elimina diferențele de culoare mici 
dintre pixelii adiacenti (cu luarea în considerare a conectivitatii de 8); 
discretizarea spaţiului de culoare în n culori; 
clasificarea pixelilor din fiecare dintre cele n culori ca şi coerenti sau incoerenti. 
Acest lucru se realizează pe baza calculării componentelor conectate, pentru 
fiecare culoare n găsindu-se lanţurile de pixeli conectaţi de aceeaşi culoare. Se 
alege apoi un prag, astfel că un pixel dintr-o anumită culoare este coerent dacă 
face parte dintr-un lant conectat de pixeli de aceeaşi culoare în număr mai mare 
decât acest prag. Toţi pixelii care fac parte din lanţuri cu un număr de pixeli mai 
mic decât pragul prestabilit sunt consideraţi incoerenti. 


În acest fel, dacă vectorul de trăsături în cazul utilizării histogramelor este 
(hy, hz, === hn), în cazul metodei coerentei de culoare va fi ((a7 „b),(a2 „b2),---> (An 
,b,)), unde a; reprezintă numărul de pixeli coerenti din culoarea i, iar b; reprezintă 
numărul de pixeli incoerenti din culoarea i. Evident că a; + b; = hj. 

Pentru compararea a două imagini I si I’ se utilizează mărimea: 


AI =F Qa, -a+b -2;) (18) 
i=l 
diferita fata de 
AH =$ |a, +b,)-(a; +b) (19) 
i=l 


utilizată în cazul histogramelor. Se creează astfel o mai fină distincție între culorile 
corespondente aparţinând la două imagini, în sensul că dacă avem acelaşi număr total 
de pixeli de aceeaşi culoare, dar într-o imagine ei sunt dispersati, pe când în cealaltă 
ei sunt grupaţi, diferenţa dintre imagini datorată acelei culori va fi mare, în timp ce în 
cazul histogramelor diferenţa datorată acelei culori ar fi fost nulă, 

Metoda este în mod natural invariantă la orientare şi poziţie, în acelaşi timp 
nefiind foarte mare consumatoare de timp de calcul. 


20 îi r : ‘ , . ` A E 
Pass, Greg , Zabih, Ramin, Miller, Justin, „Comparing Images Using Color Coherence Vectors”. 


Computer Science Department, Cornell University, 1996, 
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S, 

3. Trăsături de textură 
e Noţiunea de textură se referă la proprietăţile pe care le are suprafața sau 
re structura unui obiect, aşa cum se regăseşte ea într-o imagine [Sonka, 2008]. Desi 
Je este utilizată frecvent $i este imediat acceptată intuitiv, nu are o definiție precisă, 
33 tocmai datorită variabilitatii sale. Se poate defini textura ca ceva care constă din 


le elemente aflate într-o relaţie mutuală [Sonka, 2008]. Textura este puternic depen- 

dentă de factorul de scală. Se constituie din elemente de textură sau primitive de 
textură, care poartă uneori denumirea de texeli (prin analogie cu pixelii, elementele 
primare ale unei imagini bidimensionale, sau voxelii, elementele primare ale unei 
imagini tridimesionale). 

Analiza texturii are ca scop fie recunoaşterea texturilor, fie recunoaşterea for- 
ci | melor pe bază de texturi. De aceea, în mod normal, detectarea proprietăţilor de 

textură conduce la posibilitatea segmentării imaginilor în mai multe regiuni sau chiar 

a detectării unor forme în cadrul imaginilor digitale. Textura este descrisă uzual ca 
a fină, rugoasă, granulată, netedă, noțiuni destul de greu de captat la nivel de recu- 
A noaştere automată pe calculator. Aceste caracteristici pot fi însă detectate dacă se 
analizează tonurile de gri şi structura texturii. Tonurile de gri exploatează proprie- 
tatile de intensitate ale pixelilor, in timp ce structura texturii exprimă inter-relatiile 
spatiale dintre primitivele de textura. 

În timp ce un pixel poate fi descris prin poziţie şi nivel de gri, o primitivă de 
textură este formată dintr-o grupare contiguă de pixeli cu anumite caracteristici de 
ton sau regionale şi care poate fi descrisă prin nivelul de gri mediu, maxim sau 
minim, prin forma şi dimensiunile sale etc. Relaţia spațială dintre primitive poate fi 
aleatorie, poate fi dependentă în perechi sau poate exista între un număr oarecare de 
primitive mutual dependente. Textura unei imagini poate fi apoi descrisă prin 
numărul şi tipul de primitive, precum şi prin relaţiile spaţiale existente între acestea 


[Sonka, 2008], 
| Texturile pot fi clasificate in texturi fine, caracterizate prin primitive mici şi 
| diferente mari de tonalitate intre primitivele alăturate, sau texturi granulate, cu 


primitive mari, formate din mai mulți pixeli. De asemenea, există texturi mai putin 
evidente, cu inter-relatii mici între primitive, ce pot fi descrise adecvat cu ajutorul 
frecvenţelor de apariţie a anumito tipuri de primitive într-o anumită zonă, şi există 
texturi evidente, care pot fi descrise suficient de bine doar prin frecvența de apariție a 
J a perechilor de primitive inter-relationate spatial într-un anumit mod. 

Pentru descrierea texturilor există două abordări, pe cale statistică sau pe cale 
sintactică. Metodele statistice calculează anumite proprietăţi şi sunt potrivite pentru 


i | cazurile în care dimensiunile primitivelor de textură sunt comparabile cu 
E dimensiunea pixelilor, Metodele sintactice şi cele hibride (combinaţie între metodele 
4 statistice și cele sintactice) sunt mai adecvate în cazul în care texturile sunt formate 
p á Sonka, Milan, Hlavac, Vaclav, Boyle, Roger, „Image Processing, Analysis, and Machine Vision”, 
International Student Edition, Thomson, 2008. 
22 Idem, 


Sonka, Milan, Hlavac, Vaclav, Boyle, Roger, „Image Processing, Analysis, and Machine Vision”, 
International Student Edition, Thomson, 2008. 
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din primitive care pot fi etichetate, adică pot fi descrise prin mai multe caracteristici, 


nu numai pe baza tonurilor de gri, cum ar fi descrierea unei primitive prin forma ei. 

Cercetările care au fost efectuate cu privire la capacitatea ochiului uman de a 
recunoaşte texturile au arătat că la baza acestei capacități stau textonii, adică nişte 
formaţiuni alungite (dreptunghiuri, elipse, segmente de dreaptă, capete de segment, 
intersecții, colțuri) care pot fi detectate de vedere inconştient şi foarte rapid, în timp 
ce relaţiile pozitionale dintre textonii alaturati sunt decelate mult mai târziu. 

Din punctul de vedere al descrierii unei imagini prin vectori de trăsături în 
vederea determinării similitudinilor dintre imagini, este foarte clar că metodele 
statistice sunt mai adecvate, datorită descrierii rapide şi globale a texturilor, având şi 
o specificitate redusă. Metodele sintactice necesită operaţii laborioase (mari consu- 
matoare de timp) pentru detectarea formelor şi a relaţiilor dintre primitivele de 
textură, iar specificitatea acestor operaţii este relativ mare, diferind mult de la un tip 
de imagine la altul. De aceea, ne vom rezuma în acest capitol doar în a prezenta cele 
mai importante caracteristici statistice de textură ce pot fi uşor calculate pentru o 
imagine digitală. 


3.1 Metode statistice de descriere a texturii 
3.1.1 Autocorelatia [Sonka, 2008]'* 


Dacă avem o imagine I de dimensiuni M x N şi cu valori ale nivelelor de gri 
ale pixelilor notate cu pj, i = 1...M, j = 1...N, atunci se pot calcula o serie de 
coeficienţi de autocorelatie între pixelii aflaţi la distanțe Ax (pe direcția Ox) şi Ay (pe 
direcția Oy) pe baza următoarei expresii: 

M-—Ax N—-Ay 
2, Dy Py Plassey) 
MN ial al (20) 
M 
(M — Ax)(N — Ay) 5 Noa 
Èp; 
i=l j=l 
; Se pot alege mai multe valori pentru distanțele de autocorelatie Ax şi Ay, iar 
seria rezultată de coeficienți de autocorelatie poate fi considerată ca şi vector de 
trăsături de textură pentru imaginea J. 


C (Ax 2 Ay ) = 


3.1.2 Matrice de apariţii corelate [Sonka, 2008]** 


l Această metodă se bazează pe apariția repetată a unor configurații de nivele 
de gri care caracterizează textura. In cazul texturilor fine, o astfel de configurație are 
o variație rapidă cu distanţa, pe când în cazul texturilor mai grosiere, variaţia cu 
distanța este mai lentă. Din nou luăm în considerare imaginea J descrisă ca mai sus şi 
4 Idem. 

25 Sonka, Milan, Hlavac, Vaclav, Boyle, Roger, „Image Processing, Analysis, and Machine Vision”, 
International Student Edition, Thomson, 2008. 
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considerăm © anumită zonă dreptunghiulară din ea (o fereastră de mxn pixeli). 
Apariția repetată a unei configurații de nivele de gri ce denotă o anumită textură 
poate fi descrisă printr-o matrice de frecvențe relative notată P, (2,585). care 


descrie cât de des apar în fereastră doi pixeli cu nivele de gri g; și gz, aflaţi la distanța 
d unul de celălalt. pe direcția A 

lată câteva exemple de astfel de matrice, pentru cazurile simple ale direcțiilor 
corespunzătoare unghiurilor de 0 (direcția orizontală), 45°, 90° (direcţia verticală) şi 
135, exprimate formal: 


P. {e,.2:)= cardinalul {(&,/) (i, j)le (mx n)x (m xn): k =i =0, / - jI = d, Pu = Zy Py = A 


Pea Eng: =ar tG ))le (nxn)x(mxn):(t-i=d,1- f=-d)v (k-i =-d,l- j =d} py = g,.7, = 2,! 
eRe )= cardinalul (k, 1) (i, Ale (mx n)x (mx n): |k — il =d,l- j =0, Pu = Zis P; = Z: f 
Pa (E E) = cardimatad (4.1) (î.J)]e (ex n)x (orn): (k-i=d,!- j= d)v (k-i=-d,1- 7 =-d). pu = Zp, =g! 
(21) 
Pentru extragerea unor trăsături de textură pot fi calculate anumite mărimi 


compuse, bazate pe matricele de apariții corelate rezultate pentru o serie de ferestre 
dintr-o imagine şi pentru diverse direcții şi distanțe între pixeli, cum ar fi: 


Î. energia. o măsură a omogenitatii unei imagini, calculată cu formula: 


2. entropia, calculată cu formula: 
> Pral8i-82)log, Ppa (8182) (23) 


3. probabilitatea maxima, calculată cu formula: 
max P, ,(g,,2,) (24) 


4. contrastul, o măsură a variațiilor locale în imagine, calculat uzual cu 


formula: 


/ 
— 


y gı- 82| log, A (ge ), ce poate fi generalizată ca 
2, Wy o o.| log pe (e g ) IS) 
ZJ 52| 52 fs bb (23 


momentul diferenţei inverse, calculat uzual cu formula: 


P, (gng . BAle.e,) 
5 Ca generalizată ca X sa SiS 
kat Í — s 


8,7 83] sanss (8,7 a] 


6. corelatia, o măsură a liniarităţii imaginii, dependentă de direcție, calculată 


cu formula 
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F [les pula. 2 )]- Hy fy 


At f 7) 
0.0, 


unde, Zi fy Sunt valorile medii: 


N 


Ur Ya BEE) Hy => g) Balog) (28) 
a & ey 


& & 


iar Gy, 6, Sunt deviatiile standard: 


oO. DE =.) > Pen 22). o,= Fle, T PEEN (29) 
& &2 gı 


&2 


Practic, utilizarea acestor matrice de apariții corelate se bazează pe determi- 
narea valorilor componente ale acestor matrice pentru mai multe direcții şi mai multe 
distanţe, după care sunt calculate cele şase mărimi compuse prezentate mai sus. Se 
obţine astfel o serie destul de mare de mărimi corelate care pot fi utilizate pentru 
compararea gradului de similaritate dintre imagini. 

Metoda are însă dezavantaje mari în ceea ce priveşte volumul de calcul şi 
cantitatea de memorie necesară pentru a duce la bun sfârşit toate calculele. Se poate 
recurge însă la reducerea nivelelor de gri dintr-o imagine până la 64 sau chiar 32, la 
adaptarea ferestrelor de aplicare în funcție de mărimea regiunilor omogene şi, in plus, 
a fost dezvoltat un algoritm rapid de calcul al matricelor de apariţii corelate. 


3.1.3 Statistica muchiilor [Sonka, 2008] 


Pentru descrierea texturilor dintr-o imagine poate fi utilizată şi distribuţia sau 
frecvența muchiilor din acea imagine. Pentru a detecta muchiile dintr-o imagine se 
pot folosi oricare dintre operatorii clasici, cum ar fi Roberts, Sobel, Prewitt, Canny 
etc. O variantă mai simplă este calcularea unei funcţii de tip gradient, dependentă de 
distanță, pentru descrierea texturii, g;(4): 


&; (d) = |p, = deal aF |P; = Bea + |p; = Pisa) | |P; = Pieza (30) 
Această funcţie este similară cu negativul funcţiei de autocorelatie, 
prezentând un minim acolo unde funcția de autocorelatie este maximă şi un maxim 
acolo unde autocorelatia este minimă [Sonka, 2008]. Pentru aplicarea acestei 
metode se calculează funcția g,(d) pentru toți pixelii dintr-o regiune texturată a unei 
imagini $i pentru diferite distanţe d şi apoi se retin valorile medii ale gradientului 


obținute pentru fiecare distanță ca şi caracteristică de textură pentru regiunea 
respectivă. 


26 ony, RP BA +} > 

Sonka, Milan, Hlavac, Vaclav, Boyle, Roger, „Image Processing, Analysis, and Machine Vision”, 
i International Student Edition, Thomson, 2008. 4 
27 Idem. 
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Există o serie de proprietăţi ale texturilor care pot fi, de asemenea, derivate 
din statistica de ordinul întâi (primele trei) sau doi (penultimele două) a distribuţiei 
muchiilor: 


a. granularitatea — dată de valoarea densităţii muchiilor detectate, Cu cât sunt mai 
multe muchii detectate într-o fereastră, cu atât textura este mai fină, şi viceversa; 
b. contrastul — texturile cu contrastul mărit sunt caracterizate de dimensiuni mari 
ale muchiilor; 
c diversitatea — gradul de diversitate a muchiilor măsurat ca entropie a histo- 
gramei dimensiunilor muchiilor; 
d. directivitatea — măsurată ca şi entropie a histogramei direcțiilor muchiilor. 
Texturile care au anumite direcții mai pronunţate au un număr semnificativ şi par 
| de vârfuri, în timp ce texturile fără directivitate au această histogramă mai 
| uniformă; 


e. liniaritatea — indicată de existența unor perechi de muchii cu aceeaşi direcţie, 
i Și poziționate una în continuarea celeilalte, la diferite distanțe; 


| f.  periodicitatea — indicată de existența unor perechi de muchii cu aceeași direcție 
| sau de direcție contrară, poziționate în paralel una fata de alta, la diferite distanțe; 
g. dimensiunea. 


3.1.4 Trăsăturile Tamura [Tamura, 1978] 


Tamura şi Mori au propus în 1978 şase trăsături de textură care corespund 
percepției vizuale umane: granularitatea, contrastul, directionalitatea, liniaritatea, 
regularitatea şi rugozitatea. După testarea acestor şase trăsături, primele trei s-au 
dovedit a fi cele mai semnificative, în sensul că s-au corelat cel mai mult cu percepția 
umană. 

Granularitatea se referă la dimensiunea elementelor de textură. Cu cât este 
mai mic coeficientul de granularitate, cu atât este mai fină textura. În cazul în care 
e. a într-o imagine este prezentă o macrotextură cu dimensiuni mai mari, dar şi o 
microtextură foarte fină, primează macrotextura ca trăsătură definitorie pentru acea 
imagine, De aceea, pentru calculul granularitatii unui pixel (àj) de intensitate pa al 


| 
| 
| 
| 


0 b 


Se 


) | unei imagini, se utilizează o serie de operatori cu dimensiune variabilă, aplicaţi pe 
> a vecinatati ale pixelului de interes cu mărimi de 25x2% pixeli, k = 1,..,5 (adică 2x2, 
g 4x4, 8x8, 16x16 şi 32x32 pixeli) astfel: 

i | a, se parcurge mai întâi toată imaginea şi se calculează pentru fiecare din cele cinci 
4 a vecinatafi ale oricărui pixel (ùj) o medie a intensității pixelilor 

i | git 224 


| wa K al 
Za | M, (i, j) = 2k 535) P, lev, j2 lew G U) 


+ vel wal 


b. apoi se mai parcurge odată toată imaginea gi se calculează pentru fiecare pixel 
(i,j) şi pentru fiecare din cele cinei vecinătăţi diferențele pe orizontală şi pe 


Tamura, H., Mori, S$., Yumawaki, T., „Textural Features Corresponding to Visual Perception”, 
IEEE Transaction on Systems, Man, and Cybernetios, nr. 8(6), 1978, pp. 400-472, 
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verticală între valorile medii calculate pentru vecinătățile adiacente veci 
pixelului curent: 


DG, j)=|M, +24", j-M,(-2"",/] si 


Dre) ab) mal 209) 


c. se mai parcurge încă o dată imaginea şi pentru fiecare pixel (ij) se alege ca 
valoare pentru granularitate valoarea k a mărimii vecinătății pentru care s-a 
calculat cea mai mare diferență la punctul 2, luând în considerare ambele direcții; 


G(i,j) =argmax max De (i, j) an 
kel...5  d=oriz,veri 
Se poate face şi o medie a granularităţii pentru toată imaginea, de genul 
i) ll eae 
suk să (35) 
e MxN 22 


dar este mai util pentru vectorul de trăsături să avem o valoare a granularitatii pentru 
fiecare pixel din imagine. 

Contrastul poate fi considerat o măsură a calităţii imaginii. El este influenţat 
de domeniul dinamic de nivele de gri prezente într-o imagine, de polarizarea distri- 
butiei de alb şi negru în cadrul histogramei de nivele de gri, de tăria muchiilor şi de 
frecvenţa de repetiție a modelelor în cadrul unei imagini. Se calculează astfel: 


C= (36) 


z 


în care y4 este momentul de ordinul patru 


1 M N 
Ha = (pun) (38) 


isl j=l 

pentru o imagine de MXN pixeli pentru care intensitatea medie a pixelilor este 4 şi 
deviația standard este o, valoarea lui z fiind determinată experimental ca ‘A, Pentru că 
ne interesează ca pentru fiecare pixel din imagine să avem o măsură a contrastului, se 
aplică formulele de mai sus pentru o vecinătate de tipul 15x15 în jurul fiecărui pixel. 
Directionalitatea nu este relevantă ca şi direcție propriu-zisă, ci doar ca 
prezență în cadrul unei texturi (două texturi care diferă doar prin orientare sunt 
considerate a avea aceeaşi direc{ionalitate), Pentru a calcula directionalitatea, se 
calculează mai întâi derivatele pe orizontală (Ari) şi pe verticală (Ayer) pentru fiecare 
i pixel din imagine, Se poate realiza acest lucru prin convolutia imaginii cu următorii 

operatori de dimensiunea 3x3; 


a, 
unde 
a, = ee (37) 
| 
| 
| 
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îi 01 hapi ah bea 
foe! 0 si ae Oe St) (39) 
canta Sie Oal Taisla 


h loc de aceşti doi operatori se pot utiliza gi operatorii Sobel, 
_ Se calculează apoi directionalitatea pentru fiecare pixel (/,/) din imagine: 


Avon ts J 
A cm i,j 
final obținem un set de trei coeficienţi, de granularitate, contrast gi 
vitate, pentru fiecare pixel din imagine gi acest set mare de trăsături poate fi 


direct ca şi o imagine de tip RGB, fie sub forma unei histograme 
ionale, pentru a determina similaritatea între mai multe imagini. 


(40) 


3.1.5 Măsurarea energiei texturilor [Sonka, 2008] 


K.I. Laws a propus în 1979 caracterizarea texturilor prin determinarea nive- 
Jelor medii de gri, a muchiilor, petelor şi undelor pe care le prezintă o imagine 
texturata. Pentru asta a propus o metodă de calcul bazată pe trei vectori simpli: 
e L3=(1,2,1)—pentru calculul mediei; 
e E3=(-1,0,1)—pentru calculul diferențelor de ordinul întâi care relevă muchiile; 
e Ss =(-1,2,-1)— pentru calculul diferenţelor de ordinul doi care relevă petele. 
Se obțin apoi alți cinci vectori prin operaţia de convolutie a acestor vectori 
cu ei însuşi şi între ei: 
Ls = ( 4,6,4,1) 
Es = (-1 PAUP, 1) 
Ss = (-1,0,2,0,-1) 
SI = (1,-4,6,-4,1) 
= (-1,2,0,-2,-1) 


x multiplicarea acestor vectori unii cu alţii se pot obţine o serie de măşti 
Laws de mărime 5x5, de tipul: 


02 0 
-4 0 0 -4 
Lx Sm = 6101120305336 (41) 
-4 0 8 0 -4 
-1 0 2.0 =] 
” Sonka, Milan, Hlavac, Vaclav, Boyle, Roger, „Image Processing, Analysis, and Machine Vision”, 


International Student dition, Thomson, 2008, 
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Pentru obținerea de trăsături de textură se execută Pi de con 3 a 
unor măşti Laws de acest fel cu imaginile texturate $1 apo! se r T Kee ec 
energie pe imaginea rezultat S 


4. Rezultatele numerice ale stati i : 
cuprinse în cadrul unor vectori de trăsături de textură pe baza cărora pot fi comparate 
imaginile şi texturile între ele. 


3.1.6 Dimensiunea fractală şi lacunaritatea texturilor [Sonka, 2008]* 

Caracterizarea fractală a texturilor se bazează pe determinarea dimensiunii 
fractale şi a lacunaritatii ca măsuri ale rugozitatii şi granularității unei imagini cu 
nuanţe de gri. Din punct de vedere topologic, o imagine de acest tip are 3 dimensiuni, 
două dimensiuni fiind spaţiale, iar a treia dimensiune este constituită din valoarea 
intensității la nivelul fiecărui pixel din imagine. Dimensiunea fractală D poate fi 
estimată din relaţia coeficientului H a lui Hurst: 


HI =D (42) 
unde Tp este dimensiunea topologică a unei imagini, care este egală cu 3. 


Dacă notăm cu py valoarea intensității imaginii in punctul (ij), atunci 
parametrul H poate fi estimat din relația: 


E((4pP)= clar) | = car (43) 


unde E() este un operator expectanta, Ap = p; — Py este variaţia de intensitate de la 


pixelul (ij) la pixelul (4,0), iar Ar = IG. j)-(k.D este distanta dintre acesti pixeli. 


Pentru a simplifica estimarea dimensiunii fractale este suficient să se utilizeze relația 
următoare: 


E (Ap ) = (Ary? (44) 


în care K = E(Ap)), ., . Revenind la notația cu H = 3 — D şi logaritmand se obține 
relatia: | 


log E(Ap])= log x + H log(Ar) (45) 
Parametrul H poate fi obţinut prin utilizarea regresiei liniare a celor mai mici 


pătrate pentru a estima panta curbei diferențelor de nivele de gri gd(k) în funcţie de k 
pe o scară dublu logaritmică. Pentru o imagine cu MxM pixeli a căror intensitate este 


Py, avem: 
] M-\M-k-| M~-k-| M-\ 
d(k)=— = 
salt) 702 Xp, Pus) 2 Xp, = Pew > GE 


în care u= 2M(M-k-1), iar scara k variază de | 


: ; allaov re pr ilită 
După determinarea lui H, se calculează uşor şi D alaare prestaba 


dimensiunea fractală. Mai trebuie 


30 Idem. 
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determinată şi eroarea de aproximare a liniei de regresie pentru a dovedi că textura 
analizată este un fractal şi, deci, poate fi descrisă efectiv cu această măsură fractală. 
Dacă dimensiunea fractală a unei texturi este mică, atunci acea textură este fină, i iar 
dacă dimensiunea fractală rezultată este mare, atunci textura este mai grosieră 
[Sonka, 2008)". 

În cazul unor texturi de aceeaşi dimensiune fractală, dar care totuşi apar ca 
diferite ochiului uman, se utilizează un alt parametru, lacunaritatea. Să presupunem 
că avem o mulţime fractală A şi că P(m) reprezintă probabilitatea ca să existe m 
puncte într-o fereastră pătrată de dimensiune L centrată în jurul oricărui punct din A. 
Dacă în fereastra pătrată pot fi maxim N puncte, se poate spune că: 


N 
> P(m)=1 (47) 
m=l 
Atunci, lacunaritatea À este definită ca: 
2 
A= H (48) 
unde 
N N 
M = > mP(m) si M,= X m P(m) (49) 


m=1 m=l 


Lacunaritatea este bazată pe calcule statistice de gradul 2 şi are valori mici 
pentru texturile fine şi valori mari pentru texturile grosiere [Sonka, 2008]?. 

Pentru obţinerea unui vector de trăsături pe baza parametrilor de dimensiune 
fractală şi lacunaritate, se aplică o abordare multi-rezolutie. Se calculează aceşti doi 
parametri pentru imaginea considerată la rezoluţia maximă, apoi pentru aceeaşi ima- 
gine, dar cu rezoluţia redusă la jumătate, ş.a.m.d. până se atinge un anumit număr de 
trepte de rezoluţie. Colecţia de parametri calculati la diferite rezoluţii se constituie 


într-un vector de trăsături ce poate fi utilizat pentru aprecierea gradului de simila- 
ritate între imagini. 


3.1.7 Descrierea multiscalară a texturilor cu wavelets sau cu filtre Gabor 


Este posibilă utilizarea wavelet-urilor şi a filtrelor Gabor pentru descrierea 
texturilor din cauza faptului că texturile sunt dependente de scala la care sunt 
percepute. În [Sonka, 2008] se face o descriere a aplicării unor cadre discrete de 
wavelet-uri pentru a extrage trăsături de textură dintr-o imagine. Trăsăturile utilizate 
sunt nişte semnături ale energiei wavelet-urilor, sau derivate de ordinal 2 ale 
acestora, Din păcate, aceste trăsături nu sunt invariante la translație, ceea ce le face 


Sonka, Milan, Hlavac, Vaclav, Boyle, Roger, „Image Processing, Analysis, and Machine Vision”, 


International Student Edition, Thomson, 2008, 

32 

is Idem. 

* Sonka, Milan, Hlavac, Vaclav, Boyle, Roger, „Image Processing, Analysis, and Machine Vision”, 
International Student Edition, Thomson, 2008. 
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necesar ca să se extragă trăsătu 1 a 
nale, pentru a se depăşi această problemă. Un alt 
de calcul necesar în comparație cu alte metode, 
| colecțiilor foarte mari de imagini. 


foarte dificil de utilizat. Ar fi 
variante translatate ale imaginii origi 
inconvenient este însă volumul mare 
fiind aproape exclusă utilizarea în cazu 


3.2 Metode sintactice de descriere a texturii [Sonka, 2008]'* 


4 a texturilor se bazează pe analogia existentă între 
relaţiile spaţiale ale primitivelor de textură şi structura unui limbaj formal. Texturile 
sunt compuse din primitive care sunt dispuse aproape regulat unele fata de celelalte. 
Una dintre cele mai eficiente metode de a descrie structura texturilor se constituie 
prin găsirea unei gramatici care conţine regulile de compunere a texturilor din primi- 
tive, prin aplicarea unor reguli de transformare asupra unui set limitat de simboluri. 
Aceste simboluri sunt de fapt tipuri de primitive de textură şi regulile de transformare 
reprezintă de fapt relațiile spaţiale dintre aceste primitive. În realitate însă, texturile 
nu sunt chiar atât de regulate, ceea ce implică generarea unor reguli care să nu fie 
stricte, ci să aibă un oarecare grad de variabilitate. 

Exemple de gramatici utilizate pentru descrierea texturilor sunt gramaticile 
de inlintuire a formelor şi gramaticile de graf, existând şi gramatici de tip arbore sau 
de tip matrice. 

O altă abordare constă în gruparea primitivelor în texturi ierarhice. 

| În fine, pot fi amintite aici şi încercările de a utiliza metode combinate, 
hibride, în care se păstrează definirea precisă a primitivelor de textură, dar se recurge 
la metode statistice atunci când se iau în considerare relaţiile de spatialitate dintre 
aceste primitive. 
i: „Aceste metode sunt destul de laborioase, necesită o analiză amănunțită şi de 
a ie texturilor şi nu oferă posibilitatea de a produce un vector de trăsături 
erizeze texturile în vederea compararii imaginilor în care ele apar. 


Descrierea sintactic 


4. Trăsături de formă 


Aes all a aoe de nivel inalt care contin informatie semantica spre 
caracteristicile de baza de culoare si a l í 
C . e şi textură, care nu poartă fel d 
informație decât în cazuri parti i Perean A 
iculare. Formele nu sunt istici 
informa ecât | caracteristici generale ale 
imaginilor, ci mai degrabă caracteristici i oiae 
eristici ale obiectelor ăsite în imagini 
et FFE o i ce pot fi regăsite în imagini. 
e constă In extragerea formelor obiectelor dintr-o imagine, proces nand 
» pentru că este foarte greu ca acest lucru să fie făcut cu prcoiia doar pe 


Dificultatea se ării obi 

gmentării obiectelor provine si 
ifi c in ă obi i 
general tridimensionale în lumea real a deat tine ee 


Mai mult decât atât, compararea a ang redate doar bidimensional în imagini. 
’ . (á + 
dificilă. elor unele cu altele este o problemă foarte 


34 Idem. 
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Pentru descrierea formelor se merge pe două căi: descrierea conturului (deci 
numai a marginilor obiectului respectiv) şi descrierea regiunii (descrierea obiectului 
ca un tot). Conturul unei forme poate fi descris pe baza încadrării lui într-un poligon 
sau într-o linie curbă închisă care să conţină în întregime obiectul respectiv şi care la 
rândul lor pot fi descrise pe baza unei inlantuiri de coordonate de pixeli, segmente de 
dreaptă, arce de cerc sau spline. Regiunile pot fi descrise pe baza unor seturi de 
puncte, a unor dreptunghiuri de încadrare sau a altor tipuri de poligoane de încadrare, 
discuri, şabloane deformabile sau scheletizări. Un caz interesant de descriere a 
formelor pe bază de regiuni este cel prezentat in [Carson, 2002], Blobworld, unde 
regiunile de interes sunt reprezentate de forme eliptice determinate de centroidul 
obiectelor şi de matricea lor de împrăştiere, la care se adaugă proprietățile de textură 
şi două culori dominante din respectivele regiuni. 

Se mai pot adăuga şi caracteristicile legate de relationarea spaţială a 
obiectelor intr-o imagine. Exist relatii de tip topologic, de exemplu, un obiect este 
„aproape” de altul, este „inclus” în altul sau este „adiacent” altui obiect, precum şi 
relaţii determinate de poziţia relativă a obiectelor, cum ar fi un obiect „în fata” altuia, 
în „dreapta” altuia sau ,,peste” alt obiect. Aceste tipuri de relaţii spatiale sunt cel mai 
bine descrise pe baza unor grafuri cu atribute, în care nodurile sunt obiectele, iar 
arcele care unesc nodurile între ele reprezintă o anumită relaţie între obiectele 
corespunzătoare nodurilor. 


a 4.1. Descriptorii de forma din standardul MPEG 7 


În cadrul standardului MPEG 7 au fost selectaţi o serie de descriptori de 
formă, criteriile de selecţie a acestora fiind gradul lor de compactitate, invarianta la 
scalare, rotaţie şi translație, precum şi invarianta la distorsiunea formei datorată 
condiţiilor de filmare. 

Primul descriptor selectat se referă la suprafeţe tridimensionale şi nu intere- 
sează foarte mult acest studiu. 

Al doilea descriptor este bazat pe regiuni şi se rezumă la calcularea unor 
momente ce descriu distribuţia spaţială a regiunilor ce definesc obiecte. Se utilizează 
transformarea radială unghiulară (ART): 


271 


G= = f f P cos(zmp)e """dpdo (50) 
00 


unde ppg este valoarea intensității imaginii la distanța p de centrul cercului unitar şi 
la unghiul 8, cp = 1 şi cu = 2, n > 0. Se retin primele 35 de momente polare (până la 
ordinul 10), codificate pe 4 biti, pentru a se ajunge la un vector de trăsături de 140 de 
biți. 

Un al treilea descriptor este bazat pe contur, mai precis pe spațiul scalar al 
curburii (CSS). În acest caz vectorul de trăsături este în medie de 112 biți, dintre care 


6 biți pentru escentricitatea şi circularitatea contururilor inițiale şi finale, 6 biți pentru 
35 Carson, Chad, Belongie, Serge, Greenspan, Hayit, and Malik, Jitendra, „Blobworld: Image 
Segmentation using Expectation-Maximization and its Application to Image Querying”, IEEE Trans. 
on Pattern Analysis and Machine Intelligence, vol. 24, nr. 8, august 2002. 
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numărul de vârfuri din imaginea CSS, 7 biţi pentru înălţimea celui mai mare vârf şi 
apoi câte 9 biti pentru poziţia celorlalte vârfuri. ANA 3 aa | 

š Cel de-al patrulea descriptor combină descriptori bidimensionali ai imagi- 
nilor aceluiaşi obiect tridimensional luate din diferite unghiuri. 


42 Cazul Blobworld [Carson, 2002]'* 


Un exemplu foarte interesant de utilizare a formelor pentru regasirea ima- 
ginilor similare este sistemul Blobworld, bazat pe segmentarea imaginilor in regiuni 
care de multe ori corespund obiectelor din imagine. Reprezentarea Blobworld a unei 
imagini este obținută în urma parcurgerii a trei etape: 

l. selecţia unei scări potrivite pentru fiecare pixel din imagine şi extragerea caracte- 
risticilor de culoare, textură şi poziție pentru acel pixel şi la acea scară; 

2. gruparea pixelilor în regiuni prin modelarea distribuţiei trăsăturilor pixelilor cu o 
mixtură de curbe Gauss şi utilizarea maximizării expectantei; 

3. fiecărei regiuni rezultate i se ataşează o descriere globală a culorii şi texturii 
acesteia, pentru a putea fi folosită în interogări. 


În ceea ce priveşte caracteristicile de culoare, sistemul Blobworld foloseşte 
spaţiul de culoare L*a*b*, datorită faptului că acesta este aproape uniform din punct 
de vedere perceptual, rezultând că distanţele euclidiene dintre coeficeintii (a,b) din 
acelaşi plan ab au semnificaţie de distanțe între culorile corespunzătoare. Cu toate 
acestea, sistemul nu reţine caracteristici de culoare sub forma unor vectori de 
trăsături, ci realizează doar o netezire a fiecărui plan L, a, şi b pentru a obţine o 
reducere a numărului de culori, ceea ce favorizează segmentarea imaginii în mai 
puține regiuni relativ compacte. Se reține pentru fiecare pixel din imagine tripleta 
(L,a.b) care îi corespunde după netezire. 

Pentru determinarea caracteristicilor de textură a fiecărui pixel din imagine 
se pune accentul pe stabilirea scalei la care se judecă această textură, având în vedere 
cât de important este acest factor pentru acest tip de caracteristică. Procedura de 
determinare a scalei este destul de complicată, bazată pe mărimea unei ferestre 
Gausiene în care se calculează şi pentru care rezultă un gradient uniform al 
intensității pixelilor, Determinarea scalei de textură a unui pixel se realizează pe baza 
proprietăţii locale a unei imagini numită polaritate, care este o măsură a gradului în 
ADR N ue an imagini ant drew nea) gi 
aparținând unei regiuni de tip Sula i ah AA iD Be poro clasă gg ci 
regiuni uniforme, adică fără o textură sie G asind ae oi Sati aparțină us 
poate fi parte a uneia dintre cele trei tipuri de za ie seca ile care ee ga 
pentru fiecare pixel caracteristicile de ree aon ee n a onn e 
E nomali ä denumite polaritate, anizotropie şi 

La finalul acestor procesări, pentru fiecare pixe 
parametri de culoare (L,a,b) după netezire 
în vectorul de trăsături al fiecărui pixel 


| dintr-o imagine se obțin trei 
» trei parametri de textură şi se mai includ 
ŞI poziţia (x,y) a acestuia. Rezultă un set 


36 Idem, 
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foarte mare de parametri (8-dimensional) pentru o imagine, care este restrâns 
folosind algoritmul de maximizare a expectantei (Expectation-Maximization) pentru 
determinarea parametrilor, care maximizează asemănarea spaţiului de caracteristici 
cu o mixtură de Gausiene K. Acest algoritm ajută sistemul Blobworld să clasifice pi- 
xelii unei imagini prin clusterizare în regiuni cât mai reprezentative pentru acea 
imagine. 

După ce fiecare pixel a fost inclus într-un anumit cluster, se trece la gruparea 
spaţială a pixelilor care fac parte din fiecare cluster. Se face mai întâi etichetarea 
pixelilor conform clusterelor de care aparțin, după care se aplică un algoritm de 
conectare a componentelor cu aceeaşi etichetă. Se mai aplică şi un pas de 
postprocesare pentru a demarca şi alinia cât mai bine marginile regiunilor rezultate. 
Întreaga operațiune de segmentare pentru o imagine durează însă relativ mult, de 
ordinul minutelor pentru o imagine şi pe un PC de la nivelul anului 2002, mult mai 
putin acum, datorită progreselor obținute pe linia vitezei de calcul. Evident că autorii 
au testat procesarea paralelă a imaginilor tot la nivelul anului 2002. 

Rezultatele practice prezentate de autori sunt interesante, reliefând faptul că 
acest tip de segmentare a imaginilor duce la determinarea unor regiuni din imagine 
reprezentând obiecte importante pentru asemănarea sau discriminarea lor fata de alte 
imagini. Se obțin şi unele rezultate nedorite, cum ar fi împărțirea fundalului în mai 
multe regiuni, faptul că marginile regiunilor nu corespund perfect marginilor 
obiectelor din imagine sau chiar faptul că obiectele din imagine sunt ratate complet, 
sunt împărțite între regiuni diferite sau sunt alipite cu regiuni mai mari. 

In ceea ce priveşte sistemul Blobworld de regăsire a imaginilor, o imagine de 
test nu este transmisă pur şi simplu sistemului spre căutare de imagini similare, ci 
mai întâi este supusă algoritmului de segmentare şi extragere de trăsături, rezultând o 
imagine segmentată care este prezentată utilizatorului. Acesta poate apoi să selecteze 
din imagine regiunile care îl interesează dintre cele segmentate automat şi poate de 
asemenea să stabilească importanța relativă a regiunilor alese, dacă sunt mai multe. 

| Abia apoi se transmite din nou sistemului Blobworld comanda de căutare a 
| imaginilor asemănătoare şi se generează o listă de imagini asemănătoare pe baza 
distanțelor dintre regiunile de imagine selectate şi regiunile imaginilor existente în 
baza de date, 


| 
| 


| Și rezultatele privitoare la imaginile regăsite atestă validitatea sistemului 
Blobworld gi îl fac una din soluţiile interesante bazate pe analiza comparativă a 
| regiunilor în care este segmentată o imagine, şi nu direct pe baza unui vector de tră- 
sături de culoare sau textură, Preţul acestui sistem este însă complexitatea calculelor 
necesare atât pentru segmentarea imaginii de test, cât şi pentru segmentarea tuturor 
imaginilor din baza de date a unui astfel de sistem, 
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37 
5, Brevet de invenţie S.U.A. [Yagnik, 2011] 


Interesant pentru acest studiu este brevetul „de da i nee z 
„Metodă şi aparatură pentru adnotarea automată a imaginilor depus în Statele Unite 
ale Americii la 24.07.2006 de către Jay N. Yagnik şi atribuit la 22.1 1.2011 companiei 
Google. Sistemul care face obiectul brevetului de invenţie realizează citirea unei 
imagini, extragerea de trăsături caracteristice acestei imagini şi identificarea unor alte 
imagini de pe Internet cu trăsături caracteristice similare. În plus, sistemul găseşte 
informaţiile de tip text (cuvintele cheie) asociate imaginilor similare celei de intrare 
şi face o intersecție a cuvintelor cheie pentru a produce textul care este asociat 
automat imaginii de intrare. Sunt nu mai putin de 38 de submetode pentru care se 
pretinde dreptul de inventator şi le vom comenta doar pe acelea care sunt strict pe 
tematica acestui capitol. 

În primul rând, înainte de a extrage trăsăturile din imaginea de intrare, care 
poate fi o imagine propriu-zisă codată JPEG, GIF, BMP, TIFF etc. sau poate fi la 
rândul ei extrasă dintr-o secvenţă video codată MPEG, sistemul împarte imaginea in 
mai multe blocuri dreptunghiulare. Trăsăturile sunt extrase pentru fiecare bloc în 
parte şi este prevăzută şi situația în care există o serie de blocuri de mai multe 
dimensiuni, iar imaginea de intrare este împărțită succesiv în blocuri de aceeaşi 
dimensiune până când se termină toate dimensiunile de blocuri din listă. În acest caz 
sunt extrase trăsături pentru fiecare bloc şi fiecare dimensiune. 

Autorul se referă apoi la tipul de trăsături care sunt extrase din fiecare bloc 
de imagine, şi anume trăsături de formă, culoare şi textură. Pentru trăsăturile de 
culoare se dau ca exemplu: histogramele de culoare, dispunerea histogramei de cu- 
loare şi momentele de culoare. Între alte tehnici de procesare a imaginilor din care 
rezultă trăsături, autorul aminteşte transformata cosinus directă, analiza componen- 
telor principale şi wavelet-urile Gabor. De asemenea, este inclusă şi metoda histo- 
gramelor de orientare a muchiilor. 

Fiecare dintre aceste trăsături sunt extrase pentru fiecare bloc de imagine, la 
diferite scări ale acestuia, şi se creează un vector de trăsături complex cu toate aceste 
trăsături. Folosirea blocurilor de imagine de dimensiune variabilă este necesară pentru a 
putea caracteriza imaginea de intrare la diferite scări de percepere a acesteia, favorizând 
atât evidenţierea detaliilor, dar detectând şi informaţii globale despre imagine. 

; Pentru a găsi imagini similare cu imaginea de intrare, sistemul dispune de o 
multitudine de imagini aflate fie în baze de imagini proprii, fie culese de pe Internet, 
cărora i se aplică același algoritm de extragere a trăsăturilor, numai acestea fiind 
salvate într-o bază de date de trăsături, Această bază de date de trăsături este apoi 
utilizati pentru a găsi imaginile similare pe principiul găsirii acelor imagini care au 
Rice ot mal propiile do Imaginea 3 intrare, Autorul aminteşte că o metodă 
ei și isles sh RN Ay wits MrAsaturt similare sau identice, dar 
= ude m i comp e Xe referitoare la distribuțiile cu mai 

> $ a Gausiana cu mai multe variabile. 
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Metode de analiză şi extragere a caracteristicilor esenţiale din imaginile digitale 


După ce au fost identificate o serie de imagini similare, sistemul preia porti- 
unile de text care sunt alăturate imaginii, de exemplu in cazul imaginilor preluate din 
pagini de Internet. Autorul se bazează pe presupunerea că textul alăturat unei imagini 
de pe Internet este cel mai probabil să fie relevant pentru imaginea respectivă. Din 
aceste texte sunt extrase cuvinte cheie, care pot sau nu să fie relevante pentru 
imaginea respectivă. 

Colecţia de cuvinte cheie astfel obținută este îmbogățită suplimentar prin 
adăugarea unor sinonime pe baza unor dicționare tezaur incorporate în sistem. Pentru 
fiecare imagine similară cu cea de la intrare se găseşte astfel câte un set de cuvinte 
cheie. Ultimul pas constă în efectuarea unei intersecţii a acestor seturi de cuvinte 
cheie, pentru a le găsi pe cele care apar în toate seturile. Cuvintele cheie rezultate 
după intersecție sunt atribuite imaginii de la intrare, fiind considerate ca o descriere a 
acesteia. 


Concluzii 


S-au inventariat metode de generare a unor vectori de trăsături din imaginile 
digitale, capabili să asigure regăsirea unor imagini asemănătoare în colecţii masive 
de imagini. Întrucât metodele de extragere a trăsăturilor bazate pe caracteristicile de 
culoare ale imaginilor digitale sunt cele mai directe, cele mai simple şi cele mai putin 
costisitoare din punct de vedere al timpului de calcul, cea mai mare parte a 
capitolului a fost consacrată acestora. Ele au fost prezentate în ordine, de la cele mai 
simple la cele mai complicate, împreună cu formulele de calcul aferente şi cu 
distanțele sau măsurile de similaritate adecvate fiecărei metode. Deşi prezintă 
numeroase avantaje de aplicativitate, vectorii de trăsături rezultați în urma analizei 
culorilor dintr-o imagine prezintă o limitare majoră, dată de imposibilitatea captării 
automate a informaţiei semantice din imagine doar pe baza distribuției culorilor. 
Acest decalaj semantic face ca să fie aproape imposibil de estimat chiar şi până la ce 
| procente maxime de regăsire a imaginilor similare se poate ajunge pe baza 
caracteristicilor de culoare. Varianta controlului uman în acest caz nu este de folos, 
pentru că, pe de o parte omul nu poate estima foarte precis distribuţia de culoare 
dintr-o imagine, iar pe de altă parte, în momentul în care unui om i se prezintă o 
imagine, informaţia semantică este inconştient receptată, 

Celelalte două tipuri de trăsături, de textură şi de tormă, au fost tratate în mai 
puţin detaliu, Deși metodele statistice de caracterizare a texturilor generează vectori 


| de trăsături similari cu cei rezultați prin analiza culorilor, texturile nu sunt atât de 
i utile în măsurarea asemănării dintre imagini. Texturile se referă la anumite regiuni 
din imagini, nu pot fi descrise foarte precis şi, în plus, necesită şi un timp de calcul 
mult mai mare. Mai degrabă texturile ar putea fi utilizate într-un pas de rafinare a 
f numărului de imagini similare regăsite pe baza trăsăturilor de culoare, 

1 În fine, trăsăturile de formă sunt cele mai greu de determinat şi de încapsulat 


în vectori de trăsături potriviți pentru sistemele de regăsire a imaginilor, Formele 
A şi detectarea lor poate duce la descoperirea obiectelor 


poartă informaţie semantic i IG TA 
la interpretarea imaginilor. Principala metodă 


dintr-o imagine și, într-un pas ulterior, 
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prin care se poate ajunge la detectarea formelor este segmentarea, care necesită însă 
timpi şi condiţii de aplicare care ies din sfera sistemelor de regăsire automată a 
imaginilor similare. Cu toate acestea, am trecut în revistă un sistem bazat pe caracte- 
risticile de formă şi cu care s-au obținut rezultate interesante la nivelul anului 2002. 
Studiul se încheie cu prezentarea sumară a unui brevet de invenție atribuit 
companiei Google în 2011 şi care se încadrează foarte bine în domeniul aflat în 


discuție. 
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De la percepţia viziuală către detecția automată a texturii 


Ap 


MIHAELA COSTIN!, ANCA IGNAT? 


ABSTRACT. Modeling, characteristics close to human and primate vision in order 
„to conceive functions and programs for artificial vision is a challenging research. 
Neurosciences are revealing important aspects on vision from the cognitive point of 

„view. We are trying to formalise the modularity of the visual system in the attempt of 
automatic recognition of the surrounding environment. Hierarchic? processing of 
visual features in a similar manner as humans is a natural way of treating information 
„upon its importance in the perception of the living beings. Forms, colors and textures 
are among the most important features that are perceived at first glance. Dual Tree 
Complex Wavelet Transform, DTCWT prove to be very reliable and suitable in 
detecting texture features. Similarities among textures might be messured using 
apropriate distances. An important number of trial and error essays on texture 
detection, by this new method, have been conducted. We are describing them, 
reporting and discussing the results. 


aaa 


KEYWORDS: texture, vision, Dual Tree Complex Wavelet Transform, DICWT. 


1. Introducere — perceptie vizuala - trasaturi caracteristice 


Cu scopul de a formaliza şi modela abilitățile vizuale umane si de a le 
transpune în programe care să coordoneze vederea artificială în special pentru 
domeniul roboticii, este important să studiem din punct de vedere cognitiv metodele 
prin care putem furniza cea mai mare cantitate de informaţii sistemului. Sistemul 
vizual uman include retina, cu receptorii sensibili pentru lumină, căile de transmitere 
a semnalelor nervoase si zonele de proiecţie corticale, 

Studiile neurocognitive’ au demostrat similaritatea unor module din sistemul 
vizual uman cu cel al primatelor gi al altor mamifere. Premiul Nobel în fiziologie şi 


' Mihaela Costin, Academia Romana filiala laşi, studiu post-doctoral în cadrul proiectului „Societatea 
Bazată pe Cunoaglere — cercetări, dezbateri, perspective”, cotinantat de Uniunea Europeană si 
Guvernul României din Fondul Social European prin Programul Operational Sectorial Dezvoltarea 
Resurselor Umane 2007-2013, POSDRU 56815, 

2 Anca Ignat, Facultatea de Informatică, Universitatea „Al. I. Cuza”, laşi, 

3 Niko Wilbert, Hierarchical Slow Feature Analysis on Visual Stimuli and Top-Down Reconstruction, 
Doctoral thesis, Humboldt Univ., Berlin, http://www. inirub,de/PEOPLE/wiskott/Reprints/Wilbert- 
2012-PhD'Thesis.pd!. ate A as 

4 Michele Fabre-Thorpe, Arnaud Delorme et Ghislaine Richard, Singes e¢ Hommes face au monde 
visuel: la Catégorisation. Primatologie, 2, 111-139, 1999, 
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medicină din anul 1981 a fost acordat cercetătorilor David Hubel şi Torsten Wiesel 
pentru contribuţiile aduse în cunoașterea sistemului vizual. În 1958 ei realizaseră 
experimente care demonstrau existența în cortexul vizual al felinelor, a unor coloane 
(grupuri) de celule sensibile la orientarea unghiulară a liniilor prezente în câmpul 
vizual, (grupuri de celule nervoase care prezintă selectivitate la orientare). După cum 
se va vedea pe parcursul acestui capitol, orientarea unghiulară are o importanță 
deosebită în identificarea particularităţilor (trăsăturilor caracteristice) ale imaginilor 
şi în particular, a texturii, 

Textura ocupă un loc important pentru extragerea de indicii necesare în 
formalizarea vederii artificiale. Obiectivele majore în studiul texturii sunt înțelegerea, 
modelarea şi procesarea texturii pentru a simula procesul uman de învățare vizuală, 
cu ajutorul tehnologiilor informatice. 

Experimentele realizate cu ajutorul primatelor (Simon Thorpe) au 
demonstrat că vederea se focalizează mai întâi pe figurile umane, pe ființele care apar 
în cadru, într-un timp înregistrat de 20 ms, până la 150 ms. Doar într-o a doua etapă 
se remarcă categoria secundară din imagine, ţinând cont de background, de fundalul 
imaginii, care adeseori prezintă texturi ce constituie indicii importante pentru 
întelegerea scenei, a contextului. 

Studii referitoare la existenţa reprezentărilor vizuale comune atât pentru om 

cât şi pentru primate“, unele dintre ele efectuate în cadrul laboratorului de cercetări 
CERCO — Centre de Recherche Cerveau & Cognition — Université Toulouse ME 
conduc la unele concluzii din care se pot deduce elemente despre percepția zonelor 
de textură. Utilizând imagini ale unor obiecte manufacturate de om, sau imagini de 
animale în contextul unor scene specific umane (create de om) sau în context natural. 
studiul relevă faptul că initial macacii testati şi-au bazat deciziile categoriale pe 
prezența animalelor în scenă, fără a tine cont de background. Totuşi, ca si la om. 
primatele au dat răspunsuri mai bune în clasificarea unor asociaţii de categorii 
congruente obiect/context, în special atunci când dimensiunea mică a obiectelor a 
favorizat informaţia de background. Îmbunătăţirea acuratetei şi îmbunătățirea vitezei 
de răspuns a putut fi atribuită congruentei categoriilor superordonate (de genul obiect 
vizualizat din categoria hrană — acţiune coordonată — a se hrăni, a mânca) cu rezultate 
ale testelor uimitor de similare atât pentru primate cât şi pentru subiecții umani în 
experimente care au utilizat aceleaşi teste şi aceiaşi stimuli”, 
Aceste rezultate sugerează o procesare analogă (pentru om şi maimuțe) a 
informaţiei vizuale în timpul activării reprezentărilor vizuale abstracte. Acestea 
implică reprezentări vizuale superordonate (de rang înalt), similare, ca şi utilizarea 
implicită a asocierilor experimentate, între obiect şi context, 


simon Thorpe; Denis Fize; Catherine Marlot, Nature, Speed of processing in the human visual 
system”, Nature, 1996 Jun 6; 381(6582), pp, 520-522, i 
Denis Fize, Maxime Cauchoix, and Michele Fabre Thorpe, Humans and monkeys share visual 


representations, Psychological and Cognitive Sciences, PNAS. Proceedings of the National 
Academy of Sciences, U § A, 2011 May 3, 108(18), pp. 7635-7640 ; 


Arnaud Delorme, Ghislaine Richard, Michele Fabre- Vhorpe, Rapid Processing of ¢ ‘omplex Natural 
Scenes: A Role for the Magnocellular Visual Pathways?, Neurocomputing, 26-27. 663-670, 1999. 


258 


| 
| 


De la percepția viziuală către detecția automată a texturii 


Alături de formă şi textură, culoarea este o caracteristică importantă pentru 


imagine. În testele făcute comparativ! (pe primate şi om), se constată că viteza de 
reacție la apariția unui animal într-o imagine este foarte scurtă (de la 20 ms până la 
150 ms) şi depinde de culoare doar când este afectată claritatea imaginii, caz în care 
este necesar un timp de procesare suplimentar. Se pare că tendința generală în testele 
realizate, relevă importanţa preponderentă a culorii mai ales în testele în care trebuie 
denumit obiectul, mai mult decât în testele în care trebuie realizată o simplă cate- 
gorizare vizuală. Culoarea intervine în categorizare doar în conceperea răpunsurilor 
tardive. Luarea în calcul a indicilor cromatici pare a fi lentă, această presupunere 
fiind influenţată şi de faptul că, pe lângă indicele de culoare, în testele de denumire a 
obiectelor, intervine (ca proces consumtor de timp) şi evaluarea aspectelor semantice 
pe care trebuie să le rezolve sistemul cognitiv uman, pentru a da denumirea, sau 
răspunsul corespunzător. Ca o observaţie colaterală, compararea performanțelor gi 
timpilor de reacţie pentru om şi pentru primate arată că timpii de răspuns medii în 
sarcina de detecție a alimentelor au valori aproximativ egale, iar culoarea intervine 
mai mult în testele de detecție de aliment decât în testele de detecție de animale’, (cu 
o explicaţie probabil, derivând din ontologie). 


Sistemul vizual trebuie să reconstruiască structura tridimensională (3D) a 


unui obiect din imaginile bidimensionale (2D) de pe retină. Adâncimea definită cu 
ajutorul gradientilor de „disparitate binoculari este codată de către neuronii din lobul 
IT (inferior temporal)". Cercetări relativ recente, arată că lobul temporal inferior 


„realizează şi codificarea adâncimii definite cu ajutorul gradientilor de textură. 


Neuronii infero-temporali singulari s-au dovedit selectivi pentru deformările de 
suprafață definite fie prin textură, fie prin disparitate. Perceperea înfăşurătoarei unei 
forme proeminente, în relief, cu textură, s-a dovedit, prin măsurători, independentă 
de perceperea înclinării liniilor de pe suprafața sa, de perceperea pantelor sale, ceea 
ce indică codificarea separată a pantei (înclinării), de anvelopa formei 3D studiate. 
Mai mulți neuroni sunt antrenați la recunoaşterea formei 3D decăt la detecția pantei. 


S-au utilizat înclinări de maxim 30° pentru a evita schimbări majore care să 


facă imaginea de nerecunoscut. Se constată că neuronii din zona infero-temporală 
sunt realmente mult mai sensibili la forma tridimensională (la detecția unei 
proeminențe) decât la detecția unghiurilor înclinărilor, a liniilor oblice, din texturi 
(Nguyenkim and DeAngelis, 2003). 


Studii neurofiziologice recente au demonstrat importanța interacțiunilor 


corticale laterale si de feedback, în procesele vizuale fundamentale care includ 
segmentarea texturii şi efectele contrastului figură- fundal? 3. Experimentele 


Arnaud Delorme, /dem, 

Arnaud Delorme, /dem. 

Yan Liu, Rufin Vogels, and Guy A, Orban, Convergence of Depth from Texture and Depth from 
Disparity in Macaque Inferior Temporal Cortex, The Journal of Neuroscience, 
Behavioral/Systems/Cognitive, 24(15):3795-3800, April/14/2004, 

Jerry D. Nguyenkim, Gregory C „ DeAngelis (2003) Disparity-based coding of threedimensional 


surface orlentation by macaque middle temporal neurons, Journal of Neurosoience 23:7117-7128, 


Jean-Michel Hupé, Andrew C. James, Bertram R, Payne, Stephen G, Lomber, Pascal Girard, & Jean 
Bullier, Cortical feedback impraves discrimination between figure and background by V1, V2 and 
V3 neurons, Nature, 394, 784-787, 1998. 
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neurofiziologice efectuate referitor la segmentarea texturii şi detecția efectelor 
figuri-background relevă faptul că acesta este un proces consumator de timp, care 
implică circuite feed-back (Lamme 1998) 1, ca atare este dificil de imaginat cum un 
astfel de proces complex ar putea fi realizat doar cu ajutorul unei rețele neuronale 
feed-forward, Rezultatele referitoare la timpul efectiv de reacţie în recunoaşterea 
unor ținte percepute vizual (cum este detecția unui animal într-o scenă), sugerează că 
această identificare este posibil să se efectueze fără procese de detecție a detaliilor, 
care sunt consumatoare de timp. Se poate deduce că identificarea unui animal într-o 
scenă naturală poate fi făcută printr-o căutare paralelă a unui număr mare de trăsături 
componente. Dar, pentru creier, uneori, un singur indiciu este suficient pentru a 
identifica posibila prezenţă a unui animal într-un cadru, o parte din corp (ochi, dinte, 
membre) fiind suficientă pentru a declanşa un răspuns de identificare a prezenței 
chiar şi în condiţiile în care imaginea animalului (care poate fi parțial obturată), nu a 
fost încă segmentată. Deducem astfel că un sistem ierarhic de decizie este acționat şi 
că acest sistem dă prioritate acestor sub-module care pot declanşa o reacție mecanică. 

Rolul primordial îl are în această perceptivă, propagarea feed-forward, rolul 
buclelor de feedback fiind secundar, aşa cum rezultă din calculul timpului de reacție 
extrem de scurt!5,.%. Acest raționament a condus la concepția tehnologiei SpikeNet 
coordonată de către Simon Thorpe, care utilizează o rețea neurală specială codată 
prin spike-uri caracterizate în intensitate şi poziție temporală, ținând cont de apariţia 
lor în timp. Fiind o rețea simplă, de recunoaştere a unui obiect (model sau pattern), 
fara feedback, acest nou tip de rețea neuronală da răspunsuri suficient de bune şi 

rapide în recunoaşterea formelor obiectelor învățate din mediul înconjurător. 

Deci, în ierarhia de procesare a informaţiilor remarcăm faptul că forma este 
sesizată în primul rând, iar culoarea este utilizată în cazul în care sunt necesare detalii 
suplimentare pentru recunoaştere şi decizie. Abia ulterior sunt observate, remarcate, 
analizate, zonele cu diverse texturi, din imagine, care induc imediat scenariul asociat 
informaţiei respective. De exemplu dacă se identifică o textură de cărămidă, este 
posibil Să avem un zid, dacă identificăm scoarță, este plauzibil să existe un copac; 
sau mai multi, dacă identificăm iarbă poate avem un câmp sau o grădină, sau un teren 
de fotbal. Indicii suplimentare completează scenariul posibil identificat. 


2. Aplicaţii posibile şi importanța detectiei texturii 


is O posibilă aplicaţie de computer vision pentru librării digitale este utilizarea 
texturii pentru adnotări şi pentru descrierea conţinutului, 


Victor Lamme, Hans Supèr, Henk Spekreijse, Feedfi } 

H sf Spekreijse, Feedforward, horizontal, and feedback processing în 
the visual cortex. Current Opinion on Neurobiology, 8, 529-535, 1998 Re an 
Lamme, Idem, i i 


Michele Fabre-Thorpe, Arnaud Delorme, Catherine Marlot et Simon Thorpe, A limit to the speed of 


processing in UltraRapid Visual Categorization of nove al se y i 
Neuroscience, 13, 171-180, 2000, f navel natural scenes. Journal of Cognitive 


Michele Pabre-Thorpe, Ghislaine Richard et Si Jy 
: f Simon Thorpe, Rapid categorizati : i 
by rhesus monkeys, Neuroreport, 9, 303-308. (1998), pa apia cate asia o natural NEI 
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Fig. 1. Ilustrarea cerinţelor unui sistem de adnotare automată a texturii 


Adnotarea bazată pe procesări proprii domeniului vederii artificiale poate fi 
semi-supervizată de către utilizator în atașarea descriptorilor pentru baze extinse de 
date (imagini sau video-uri). Odată etichetată o anumită textură cu termenul 
corespunzător, modelul de textură poate fi utilizat pentru a propaga această etichetă 
şi la alte regiuni cu o textură „vizual similară”. 

Deocamdată nu există implementări care să dea rezultate suficient de bune 
încât să se potrivească realmente cu modul în care percepția umană detectează 
similaritatea în imagini. Ca urmare, pentru îmbunătăţirea acuratetii, pot fi selectate 
câteva texturi-model pentru aceeaşi categorie de textură, cu condiția ca aceste modele 
să fie bine alese şi reprezentative. 

Un sistem va baleia imaginea şi pentru fiecare eşantion de imagine va gasi 
modelul de textură care se potriveşte în proporția cea mai mare cu zona selectată din 
imagine. În cazul în care o singură textură nu corespunde suficient de bine zonei 
alese, fie se sub-eşantionează zona din imagine gi se caută texturile corespunzătoare, 
fie se atribuie o nouă categorie texturii. 


3, Sistem de procesare automată 


Un sistem tipic de procesare de imagini (incluzând şi procesarea texturii) 
poate parcurge mai multe etape: achiziţie de imagini, preprocesare, extragere de 
trăsături, clasificare, postprocesare, decizie, 

Referindu-ne la textură putem vorbi despre metodele de analiză a texturii, 
clasificarea texturii, segmentarea pe bază de textură, extragerea de forme în funcţie 
de textura înglobată gi de sinteza de texturi plecând de la eşantioane de textură. 
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Analiza texturii poate fi realizată în diverse etape ale procesării imaginii, În 
faza de preprocesare, imaginile pot fi segmentate în regiuni contigue, bazându-ne pe 
proprietăţile texturii în fiecare regiune. În faza de extragere de trăsături şi de 
clasificare, trăsăturile de textură pot furniza indicii pentru clasificarea modelelor (a 
patter-urilor) şi pentru identificarea obiectelor. Element de bază între toate celelalte 
aplicații referitoare la texturi, analiza texturilor este menită găsirii unui descriptor 
cantitativ cât mai eficient şi mai compact, prin utilizarea unei game variate de 
operatori. 

Unii algoritmi de analiză a texturii implică extragerea trăsăturilor cartacte- 
ristice şi propun o schemă de codare care să înglobeze aceaste caracteristici. 

Aceşti algoritmi diferă fie în funcţie de tipul de trăsături de textură pe care le 
extrag, fie în funcție de felul în care aceste trăsături sunt prezentate în descrierea 
texturii. 

O abordare statistică descrie o textură prin statistici de semnal 2D (semnal 
bidimensional, caracterizând imaginea respectivă), care reflectă proprietățile nedeter- 
ministice ale distribuţiei spaţiale ale semnalelor din imagine. 

O metodă spectrală extrage trăsăturile de textură din domeniul spectral. 

O abordare structurală a texturii consideră textura ca o ierarhie de aranjamente 
spaţiale de primitive de textură bine-definite. 

Un model de probabilitate poate descrie procesul stohastic care stă la bază 
generării texturilor. 


4. Procesarea texturii cu DICWT 


Vom prezenta în acest capitol câteva rezultate practice ale aplicării 
transformatei wavelet într-o formă propusă de Nick Kingsbury şi Ivan Selesnick! 
care evidenţiază orientările unghiulare într-o textură şi punctele de amplitudine 
maximă (intensitate preponderentă) care rezultă din aplicarea acestei metode, 
denumită Dual Tree Complex Wavelet Transform (abreviat DTCWT Transformata 
Wavelet Discret cu arbore dublu, complex, în care C italic face diferenţa fata de alte 
abrevieri posibile, uzuale — de exemplu pentru continuous wavelet transform CWT- 
transformata wavelet continuă). 

DTCWT calculează transformata complexă a unui semnal utilizând două 
descompuneri separate arborele a şi arborele b, create din descompuneri DWT 
(Diserete Wavelet Transform), Dacă filtrele utilizate în unul din aceşti arbori sunt 
proiectate diferit faţă de filtrele utilizate în cel de al doilea arbore atunci este posibil 
ca unei DWT să îi fie atribuiţi coeficienţii reali iar celeilalte DWT să îi fie atribuiti 
coeficienţii imaginari, 


17 ; f 
Ivan W. Selesnick, Richard G, Baraniuk, and Nick G, Ki T 
il pal s aake , tQ. Kingsbury, The Dual-Tre ; 
Transform, IEEE Sign, Proe, Mag., vol, 22, no 6, pp 123.15) À Nar eee ee Pe 
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Fig. 2. = a a 
ig. 2. DICWT — o metodă robustă pentru determinarea trăsăturilor de textură 


Transformata wavelet complexa 

Transf wa plexă cu acest arb i ă 

subimagini cu informații directionale la +15°, +459, 175°. ie Cena aan 
Se obţin astfel 6 seturi de coeficienți complecși 


I . 
(Wl; > le AP LT 
I url Phen 7st) : 
unde W, sunt matrice pătratice ale căror de dimensiuni se injumatatese pe măsură 


ce indexul / creşte. 
De exemplu, pentru o imagine de dimensiune 728x1728 şi L=4, coeficienții 


1 ‘ : 2 . p 
W' au dimensiunea 64x64, W; au dimensiunea 32x32, Ww an ist te 


16%16 şi Wf au dimensiunea 8x8, 
Am notat cu £ numărul de nivele de descompunere cu care se calculează 
k a 


transformata wavelet, 
În calcule am folosit L=4, 


Legătura dintre in 
direcţii este următoarea: 


dicii j cu care se indexează subimaginile directionale şi 
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o 


j=l pentru +15%, j=2 pentru 445°, j=3 pentru +75’, 
J=4 pentru -75°, j=5 pentru -45°, j=6 pentru -15°. 
Coeficientii furnizaţi de DTCWT sunt complecși {w fl. 1=1,..,L, j= 125.056} 
WI VIU) Lally f= 12,06 


în calcule am lucrat cu amplitudinea (modulul) acestor coeficienți: 


Sia\(VIV (UL) > FHbeoks d 1206 


Pentru a putea compara imagini cu texturi, folosind coefiecientii obtinuti prin 
calculul transformatei wavelet complexe cu arbore dublu, vom adapta şi vom testa 


mai multe măsuri de similaritate sau distante'®. 
Vom utiliza ca distante de lucru distanta matriceală Frobenius şi cele 


generate de distantele vectoriale city-block si max. De asemenea, vom adapta 
măsurile de similaritate definite de cosinus şi cea data de coeficientul de corelatie 


Pearson. 
Aceste măsuri sau distanțe sunt aplicate pentru toți coeficienții 


(si; 1=1,...,L, j= 1,2,...56} asociati imaginilor pe care dorim sa le comparam. 


Fie A şi B două matrice de dimensiune m xn. 
Pornind de la normele euclidiană, city-block şi max putem defini următoarele 


distanțe matriceale: 


m n 2 A 
DIR È Sla h) ) 


i=l j=l 


3 j= tam] 


d,(A,B) = max Sh -b; 


i=1 
d,(A,B)= max| a; -b,|; i= brs} 
jal 
Fie x siy doi vectori n-dimensionali, 


Măsura de similaritate cosinus pentru vectorii x giy este dată de relația: 
TA 


y. 
cos(x, y) = Tr 
lily 


unde prin ||'|| am notat norma euclidiană, 
Coeficientul de coerelatie Pearson pentru două variabile aleatoare X şi Y se 


definește ca fiind: 


cov( X,Y 
r(X,Y)= cov( X,Y) 
00, 
® Rui Xu, Donald C, Wunsch II, Clustering, , IEEE Press/Wiley 2009, 
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unde prin cov(X, Y) am notat covarianta celor două variabile aleatoare X şi Y iar oy şi 
oy sunt abaterile standard ale lui X şi respectivY . 

Folosind aceste distanţe şi transformata wavelet complexă cu arbore dublu, 
putem compara două imagini astfel: 


6 L 
d(X,Y)=)},d.(S;(X)S;)) 
j=l lei 
unde prin d. am notat una din distanțele matriceale definite mai sus. Se observă că aceste 
distanțe pot fi aplicate doar pentru imagini care au aceeaşi dimensiune. 
Pentru măsurile de similaritate date de cosinus şi de coeficientul de corelație 
Pearson, definim măsuri de similaritate pentru imagini astfel: 


| 
| 
| cos), (X,Y) = Yd (1-c0s(5/(x),8)(¥))) 
| 
| 


j=l I=1 


6 4 (1-r(S)(X),S;(Y) 
en-z Oso) 


j=1 [=1 


unde X si Y sunt imaginile pe care vrem să le comparam iar 
(500) ; l=1,..,L, j=1,2,...,6} si {S)(¥) 5 1=1,...,L, j=1,2,...56} sunt 


| coeficienții obţinuţi prin aplicarea transformatei wavelet complexă cu arbore dublu 
| (DTCWT) asupra celor două imagini. 

Aceste două distanțe sunt costisitoare din punct de vedere computaţional şi 
pot fi aplicate doar pentru imagini care au aceeaşi dimensiune. Pentru a reduce din 
efortul computaţional o variantă ar fi să se aplice aceste distanțe după ce imaginile 
au fost redimensionate la o dimensiune comună mai mică: 

cos’, (X,Y) = COS», (resize (X,new _ dim), resize(Y ,new_dim)) A 
| Această nouă definiție are avantajul suplimentar că aceste distanțe pot fi 
| aplicate unor imagini de dimensiuni diferite. 

Pentru a aplica măsura de similaritate cosinus definită mai sus pentru 
coeficienții matriceali consideraţi (cei obținuți prin aplicarea transformatei wavelet 
complexe cu arbore dublu), am linearizat matricele respective în ordinea liniilor. 

Pentru a testa eficacitatea distantelor/masurilor de asemănare a texturilor 
| construite utilizând transformata wavelet complexă cu arbore dublu (DTCWT), am 
folosit, în prima etapă, o bază de date de imagini împărțită pe clase de texturi”. Toate 
| imaginile din bazele de date folosite sunt alb-negru şi au dimensiunea 728x728 şi au 
fost scalate la intervalul /0,/]. Software-ul folosit în calcule care implementează 
transformata wavelet cu arbore dublu a fost descărcat de pe pagina Prof. Nick 
Kingsbury” 


Prima bază de date utilizată, notată cu T, conţine 12 clase de texturi: scoarță, 
cărămizi, perete, sticlă, blană, pietre, catifea, gresie, apă, covor, lemn şi pled. În 
fiecare din aceste clase avem câte 40 de imagini de texturi. Cele 40 de elemente din 
Svetlana Lazebnik, Cordelia Schmid, Jean Ponce, A Sparse Texture Representation Using Local 
Affine Regions, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol, 27, no. 8, pp. 
1265-1278, august 2005, 


# http://www-sigproc.eng.cam,ac,uk/~ngk/ 
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fiecare clasă sunt imagini ale aceleaşi texturi care a fost fotografiată din unghiuri 
diferite şi la scale diferite, de asemenea la fotografiere au fost folosite diverse tipuri 


de iluminare. 
Figura 1 prezintă, spre exemplificare, câte 4 imagini din fiecare clasă. 


Pietre 


texturii 


ada 


iuală către detecția automat 


z 


1a VI 


— 
> 
9 
S 
a 

= 
v 
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Catifea 


Fig. 3. Baza de date de texturi T 


Pentru a testa cele cinci distante/masuri de similaritate introduse, am rotit cu 10° 
şi 15° prima imagine din fiecare clasă şi apoi am aplicat aceste distanțe pentru a compara 
imaginilele rotite cu cele din baza de date. Pentru fiecare imagine rotită, am calculat 
distanțele față de toate imaginile din baza de date, apoi am ordonat crescător aceste 
distanțe. În tabelele de mai jos am trecut pentru fiecare imagine rotită clasele a trei 
imagini din baza de date, acele imagini/clase care au furnizat distanțele cele mai mici față 
de imaginea rotită considerată. 

In Tabelul I sunt trecute rezultatele acestor comparații folosind cele cinci 
distante/masuri de similaritate propuse pentru imaginile rotite cu 10° iar în Tabelul II 
sunt rezultatele acestor calcule pentru imaginile rotite cu 15°. 

Pentru imaginile rotite cu 10° distantele/masurile de similaritate propuse au 
nimerit clasa din care provenea imaginea rotită astfel: cu d; şi d, s-au obţinut şapte 
rezultate corecte, cu d; s-au obţinut cinci rezultate corecte, cu COSpr şi cu coeficientul 
de corelație Pearson rpy doar trei rezultate corecte. 

Pentru imaginile rotite cu 15° avem următoarele rezultate: d, , d> şi d. produc 
şase clase exacte, cu coeficientul de corelaţie Pearson rpr se obțin rezultate corecte 
pentru patru texturi iar cu cospy două clase corecte. 

Din cele două tabele observăm că distanțele d, , d> şi d, tind să furnizeze, în 
marea majoritate a cazurilor, rezultate asemănatoare. 

Texturile pentru care se obţin rezultatele cele mai bune sunt: scoarța, lemnul, 
apa și catifeaua, Texturile care nu au fost aproape 
peretele, sticla şi covorul, dar, privind aceste 
cabil, întrucât imaginile sunt dificil distincibil 
ginile fiind uşor confundabile), 

Din tabele se observă de asemenea că măsura de similaritate cospp în foarte 
multe dintre cazuri plasează catifeaua pe prima poziţie (adică, ar fi textura cea mai 
apropiată de marea majoritate a imaginilor rotite). 

In fiecare clasă a bazei de date 
ginile sunt foarte diverse din punct de 


niciodată identificate sunt gresia, 
imagini rezultatul este justificat, expli- 
e chiar şi de către privirea umană, ima- 


sunt imagini ale aceleiaşi texturi, dar ima- 
vedere al direcțiilor, proprietate a transfor- 
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matei wavelet complexe cu arbore dual pe care încercăm să o folosim pentru 
identificare/clasificarea texturilor, 

Deoarece rezultatele de identificare obținute pentru imaginile rotite folosind baza 
de date T sunt mai mult nesatisfăcătoare, am creat o nouă bază de date (pornind de la 
baza de date T) în care am redus numărul imaginilor din fiecare clasă, păstrând prima 
imagine din baza de date şi alte imagini care au, în mare, aceleași direcţii ca şi aceasta. 

În noua bază de date, în fiecare clasă sunt între 5 şi 10 imagini. Am reluat 
calculele cu fişierele rotite cu 10° şi 15° folosind această baze de date, redusă. Rezul- 
tatele calculelor se găsesc în Tabelele IV şi V. 

Pentru clasarea imaginilor rotite cu 10° (Tabelul III) avem următoarele 
rezultate: distanța d, nimereste clasa de provenienţă a imaginii rotite în şapte cazuri, 
d în 8 cazuri, d, în şapte situații, măsura cospr în patru cazuri şi coeficientul de 
corelație Pearson rpr în şapte cazuri. 

Pentru imaginile rotite cu 15* (Tabelul IV) avem următoarele rezultate: 
distanța d, găseşte rezultatul corect în şase cazuri, d> şi d, în şapte situații, măsura 
COSpr în două cazuri şi coeficientul de corelaţie Pearson rpr în cinci cazuri. 
Rezultatele sunt mai bune decât cele pentru baza de date completă. Ca şi în cazul 
precedent, texturile scoarță, lemn, apă şi pietrele, sunt texturile unanim recunoscute 
de distanțele d, , d» şi dẹ». Texturile care nu sunt identificate sunt, ca în situația 
precedentă, gresia, peretele, cărămizile, sticla şi covorul. 

Chiar şi cu această modificare a bazei de date, rezultatele obținute nu sunt 
multumitor de performante. Pentru a vedea dacă rezultatele pot fi îmbunătăţite si a 
studia influența componenţei claselor asupra rezultatelor, am redus baza de date 
astfel încât în fiecare clasă să fie o singură imagine şi anume imaginea din care s-au 
construit imaginile rotite. Am făcut, din nou, aceleaşi calcule, iar rezultatele se 
regăsesec în Tabelele V (pentru imaginile rotite cu 10°) şi VI (pentru imaginile rotite 
cu 15°). Rezultatele nu s-au îmbunătăţit fata de situația comparatiilor cu baza de date 
redusă şi nici măcar față de cele obţinute când am folosit baza de date completa. În 
cazul imaginilor rotite cu 10° d; , d» şi d, produc fiecare şase rezultate corecte, cospr 
patru rezultate corecte şi rpr şapte rezultate bune, iar pentru imaginilor rotite cu 15* 
d; furnizează cinci rezultate bune, d» şi d, produc fiecare şase rezultate corecte, cospr 
trei rezultate corecte şi rpr opt rezultate exacte. Texturile pentru care se obțin 
rezultate corecte pentru toate distanţele sunt aceleaşi ca şi în cazurile precedente. 

În concluzie, indiferent de numărul de elemente din clasele bazei de date T, 
rezultatele obținute folosind cele cinci distante/masuri de similaritate propuse pentru 
compararea imaginilor nu sunt performante, 

În toate cele trei cazuri, texturile pentru care se obţin rezultate exacte/greşite 
sunt aproximativ aceleași, Din rezultatele afişate în primele şase tabele, deducem că 
distanţa cu care se obţin cele mai multe rezultate corecte este d> urmată de d, şi d, iar 
rezultatele mai puţin performante sunt obţinute cu măsura dată de cosinus, cospr 
Pentru comparaţie, am schimbat în continuare baza de date şi am folosit albumul de 
imagini cu texturi Brodatz” 


2 Albumul cu texturi Brodatz » http://sipi,use,edu/database/ 


22 Phil Brodatz, Textures: A Photographic Album for Artists and Designers, Dover Publications, New 
York, 1966, 
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În baza de date Brodatz cu care am lucrat sunt 13 clase de texturi; apă, 
căramizi, iarbă, lână, lemn, nisip, paie, piele, piele de porc, rafie, scoarță, spumă şi 
țesătură. În fiecare din clasele albumului Brodatz avem exact 7 imagini: o imagine a 
texturii care caracterizează din punct de vedere vizual clasa respectivă şi 6 variante 
rotite ale acestei imagini. =e 

Unghiurile ae rotaţie folosite pentru a obţine celelalte 6 imagini sunt 30°, 
60°, 90°, 120°, 150° si 200°. Prin urmare in albumul Brodatz folosit avem 91 imagini 


împărțite în 13 clase. K oe 
in Figura 2 se găsesc imaginile texturilor de bază din albumul Brodatz. 


Sa 


Scoarta Spuma Tesatura 
Fig. 4. Albumul de texturi Brodatz — cele 13 imagini de bază 


Am reluat calculele de clasificare a imaginilor rotite cu 10° şi 15° pentru 
noua bază de date, Rezultatele sunt în Tabelele VII (pentru imaginile rotite cu 10°) şi 
VIII (pentru imaginile rotite cu 15°) şi sunt radical diferite. 

Când comparăm imagini rotite cu 10° fiecare distanță areşeşte o singură dată, 
pentru aceeaşi imagine: d, , d}, cospy şi rpy nu identifică bine textura spumă iar du 
nu reuşeşte să identifice corect cărămizile, 

Pentru imaginile rotite cu 15° se fac mai multe clasificări eronate: d, — două 
identificări greșite, dz — trei identificări greşite, d, face patru erori de identificare, 
cosy; — două greşeli şi rp; nu identifică corect o singură textură, 

Am considerat şi problema comparării/elasificării unor imagini care nu sunt 
în bazele de date folosite mai sus. Am ales patru imagini de scoarță de copac: două 
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dintre ele sunt din baza de imagini de texturi VisTex” şi două sunt porțiuni din 


imagini ale unor scene cu copaci din laşi (Fig. 3). Imaginile din care au fost selectate 
ultimele două texturi din Fig. 3 se păsesc în Fig. 4. 


N 


| AAA 


MEINA YS ie 134 
Scoarti VisTex Sco Tex Scoarta Iasi 
(Scoarta 1) (Scoarta 2) (Scoarta 3) (Scoarta 4) 


Fig. 5. Exemple - scoarte de copac ce nu se regasesc in bazele de date T si Brodatz 


Fig. 6. Imagini din laşi cu scoarță de copac 


Imaginile alese pentru a fi comparate cu elementele din cele două baze de 
date seamană cu texturile din baza de date T. Ar fi normal ca să obținem rezultate 
mai bune pentru comparaţiile cu imaginile din baza de date T. Am evaluat din nou 
distanțele între aceste texturi şi cele din bazele de date considerate mai sus. 
Rezultatele se găsesc în Tabelul IX pentru comparatiile cu imaginile din baza de date 
completă T, în Tabelul X pentru comparatiile cu imaginile din baza de date T redusă, 
în Tabelul XI pentru comparaţiile cu imaginile din baza de date T cu o singură 
textură în fiecare clasă si în Tabelul XI pentru comparatiile cu imaginile din albumul 
de texturi Brodatz, Prima imagine cu scoarță de copac (Scoarţă |) este identificată de 
distanţele d; , d» și d, în toate cazurile când am folosit baza de date T (indiferent de 
variantă), Imaginea Scoar{il este clasată ca fiind din clasa scoarță şi de distanţele 


23 Baza de date de texturi VisTex - hup;//vismod,media.mit.edu/vismod/imagery/VisionTexture/ 
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cosinus şi coeficientul de corelație Pearson doar în Ca a aa se 

date T redusă. Textura Scoarţăl nu este clasificată co í E 

care lucrăm atunci când utilizăm albumul Brodatz. A doua textură (Scoarţă2) este 

identificată corect de d), d şi d, în toate cazurile (indiferent de baza de imagini 

folosită) şi în plus de rpr în cazul bazei de date T redusă. A treia textură (Scoarţă3) 

este identificată corect de d}, d» şi d, atunci când a fost comparată cu baza de date T 

completă şi cea redusă. În cazul bazei de date T cu un singur element în fiecare clasă 

doar d şi d, o clasifică bine. Pentru albumul Brodatz, doar distanța d, reuşeşte să o 

identifice corect. A patra textură (Scoarta4) este identificată corect doar pentru baza 

de date T completa, de distanţele dz şi da. ir 

Prin urmare, s-au obtinut rezultate mai bune cu baza de date T (indiferent de 
varianta) decat cu albumul Brodatz, iar intre bazele de date T, cea completa a furnizat 
rezultatele cele mai bune. 

Am sumat toate rezultatele — clasarea celor 28 de imagini (12 rotite cu 10°, 

12 rotite cu 15° şi 4 texturi de scoarță) pentru baza de date T şi a celor 30 de imagini 

(13 rotite cu 10°, 13 rotite cu 15° şi 4 texturi de scoarță) si obținem următoarele 

procente de reuşită (Tabelul XII): 

- distanța dj: 50% pentru clasificări folosind baza de date T completă, 57,14% 
pentru baza de date T redusă, 46,43% pentru baza de date T cu un singur element 
în fiecare clasă şi 80% pentru albumul de texturi Brodatz; 

- distanța dz: 57,14% pentru clasificări folosind baza de date T completă, 60,71% 
pentru baza de date T redusă, 50% pentru baza de date T cu un singur element în 
fiecare clasă şi 76,67% pentru albumul Brodatz; 

- distanța d: 60,71% pentru clasificări folosind baza de date T completă, 60,71% 
pentru baza de date T redusă, 53,57% pentru baza de date T cu un singur element 
în fiecare clasă şi 76,67% pentru albumul Brodatz; 

- distanța cospr: 17,86% pentru clasificări folosind baza de date T completă, 25% 
pentru baza de date T redusă, 28,57% pentru baza de date T cu un singur element 
în fiecare clasă şi 73,33% pentru albumul Brodatz; 

= pec ror: 32,14% pentru clasificări folosind baza de date T completă, 46,43% 
pentru baza de date T redusă, 53,57% pentru baza de date T cu un singur element 
în fiecare clasă şi 80% pentru albumul Brodatz. 


Din aceste date, constatăm că cele mai bune rezu i 
date Brodatz iar dintre distanțe rezultatele cele mai aes ye 1. 
bizele de date i şi dı şi coeficientul de corelaţie Pearson, lpr — pentru album 
ie a Comparand procentele de reuşită doar pentru cele trei variante de baze de 
ate T, cele mai bune clasificări se obțin pentru baza de date T redusă. 
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Tabel I. Distanjele d,,d,, 
pentru prima textură din fiecare clasă rotită cu 10° 


E 


Sticlă.10 


Apă 26.36 
Apă 26.40 


Covor_51.13 


Pietre 47.60 Pietre 50.77 
Covor 47.62 


Blană 41.63 Pietre 45.24 


Covor 51.70 
Pietre 52.30 
Covor 44.20 


Blană 44.55 Covor 41.90 


De la percepția viziuală către detecția automată a texturii 


Scoarţă 54.64 


Scoarţă 55.41 


Lemn _ 33.22 Lemn 34.09 


Lemn 33.38 


Ap 24.73 
47.16 


pă 24.37 A 27.92 
Apă 24.42 Apă 28.42 
ă 


d cosinus şi corelatia Pearson aplicate coeficienţilor. dtewt 


comparată cu baza de date completă 


Ce 4, eT ETP 


Scoarjă 63,39 


Scoarță 58.79 


Pietre 59.70 


Gresie 59.93 


| Lemn 3429 | Lemn 5.89 | Lemn 1012 


pă Catifea 5.93 Apă 10.27 

Apă 6.00 Pled 10.33 

Apă 28.84 Apă 6.00 Lemn 10.46 
Covor 50.70 Catifea 5.72 Sticlă 10.79 


Cărămizi 5.73 Cărămizi 10.88 
Pietre 52.01 Catifea 5.79 Cărămizi 10.89 


Catifea 5.54 


Blană 45.44 


Cărămizi.10 | Covor 53.57 


Apă 50.40 Apa 44.92 Apa 48.47 Catifea 7.35 Pled 10.48 
Apă 50.62 Apă 45.02 Apă 49.83 Catifea 7.42 Perete 10.48 
Apă 50.63 Apă 49.91 Covor 7.42 Pled 10.48 
Cărămizi 50.34 | Cărămizi 49.19 | Blană 55.19 Catifea 5.62 Perete 10.71 
Pietre 56.37 Catifea 5.73 Catifea 10.74 
Perete 50.08 Pietre 56.74 Catifea 5.82 | Lemn 10.82 
Covor__67.67 | Covor 73.30 | Catifea 6.58 | Sticla 10.52 
Pietre 68.98 Covor 73.83 Covor 6.64 
Covor 73.95 Covor 6.67 | Sticlă 10.64 


Gresie 58.53 Catifea 5.55 | Blană 10.70 
Covor.10 Gresie 53.73 Pietre 58.97 Covor 5.56 | Scoarţă 10.74 
emo | Covor 60.45 Cărămizi 59.74 | Pietre 5.65 Blană 10.75 
Apă 39.20 Blană 43.59 Blană Blană 9.89 
Blană.10 Blană 39.41 Blană 36.09 Blană 43.60 Catifea 5.96 Sticlă 10.38 
mata] Apă 39.44 Apă 36.29 Blană 44.36 Cărămizi 6.00 | Blană 1041 
Catifea 59.57 Catifea 48.11 Catifea 50.63 Catifea 4.86 Pled 10.64 
Catifea.10 Catifea 61.63 Catifea 51.02 Catifea 54.88 Catifea 5.06 Lemn 10.69 
Catifea 65.02 Catifea 55.31 Catifea 58.43 Catifea 5.17 Pled 10.71 
Perete 68.36 Pled 58.80 Pled 64.41 Pled 5.32 Pled 8.89 
Pled,10 Blană 60.94 Perete 65.39 Catifea 5.71 Pled 9.63 
Blană 68.87 Blană 61.01 Pled 65.82 Pled 5.77 Pled 10.05 
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Tabel II. Distanţele d,, d,, d, cosinus şi corelafia Pearson aplicate coeficienţilor dtem 
pentru prima textură din fiecare clasă rotită cu 15° comparată cu baza de date completă 


Blană 44.43 | Blană 41.77 | Pietre 45.40 
Pietre 45.07 Catifea 5.67 | Covor 10.88 
Blană 45.09 
Apă ____ 46.80 Catifea 7.28 
Apă _ 46:81 Apă 47.58 | Catifea 7.29 
Apă ____ 47.09 Gresie 7.31 
Cărămizi_51.56 Lemn 10.80 


Pietre.15 


Perete.15 


Caramizi.15 Pietre 55.60 
Perete 50.15 | Cărămizi 55.70 | Covor 5.74 

Covor 68.83 | Covor 61.31 | Covor 73.03 

Sticlă 10.57 


Sticla.15 Covor 69.71 Covor 61.63 | Covor 73.40 Catifea 6.62 


Covor 69.96 Covor 61.68 | Pietre 73.76 Catifea 6.66 Catifea 10.60 
Gresie 59.72 Gresie 53.56 | Pietre 57.85 Catifea 5.52 Blană 10.72 
Covor.15 Gresie Gresie 58.75 | Catifea 5.55 | Blană 10.73 
Gresie 53.92 | Cărămizi 59.14 | Covor __5.55 | Pled 10.78 | 
| Apă 39.15 | Apa 35.15 | Apa 4267 
Apă 35.40 | Apă 4349 Blană 10.40 
| Apă 39.51 | Apă 35.99 | Apa 4376 | Catifea 593 | Sticla 1046 


Catifea 4.96 | Apă 10.67 
Catifea.15 Catifea 60.29 | Catifea 51.71 | Catifea 54.84 Catifea 5.00 Lemn 10.69 
Catifea 64.88 | Catifea 55.10 | Catifea 58.61 

Pled___58.25 | Pled 62.03 
Pled 59.47 | Pled 6240 
Blană 60.17 | Blană 64.87 


Pled.15 Cărămizi 68.38 


Blană 68.59 


eS SS E 
| Scoarţă 62.64 | Scoarţă 56.07 | Scoarfi 59.25 | Catifea 5.61 | Lemn 10.62 | 
Scoarţă.15 Pled___1073 
Catifea 10.77 
Lemn 10.09 
Lemn.15 
| Apă 44.70 | Lemn 34.74 | Lemn 36.28 | Catifea 5.98 | Lemn 10.12 | 
Pled____10.29 
Apă 5.93 | Sticlă 1039 | 
| Apă 26.94 | Apă 2521 | Apă 2926 | Covor 6.00 | Pled 10.44 
Covor 47.51 | Covor 50.98 | Catifea 5.80 | Sticlă 10.65 | 
Gresie. 15 Covor___ 47.79 
Pietre 52.23 


| 
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Tabel III. Distanjele d 1» d, d, cosinus şi corelatia Pearson aplicate coeficienţilor dtewt 
„pentru prima textură din fiecare clasă rotită cu 10° comparată cu baza de date redusă 


Scoarfi 54.64 | Scoarța 58.79 


Scoarță _63.39 


Scoarță__66.19 
Cărămizi_66.54 
| Lemn 4460 | Lemn 3322 | Lemn 3392 | Catifea 561 | 
emn Lemn 34.09 
| Lemn __ 35.67 | Catifea6.01 | Catifea 10.34 
| Apă 25176 | Apă 28.84 
Apă 24.42 
[Apă 2666 | Apă 2501 | Apă 2888 | Catifea6.06 | Perete 1058 | 
Covor 50.70 
Pietre 52.01 
Covor 52.90 | Covor 5.91 Perete 10.98 
Ali Pietre 45.24 Covor___10.97 
i 10 Catifea 11.01 
i Catifea 5.74__| Sticlă 11.02 
|. Covor 7.42 | Perete 10.48 
Perete.10 Catifea 7.43 | Pled 10.62 
Apă 51.02 
Pietre 56.37 | Catifea 5.62 
Cărămizi.10 
Sticlă 10.52 
Covor.10 
cowie Fea esa si muh [Cons [Ren | 
Blană 36.09 
Blană.10 Blană 39.78 | Apă 36.80 
Blană __39.88 | Blană 36.88 
Catifea 59.57 | Catifea 48.11 Catifea 50.63 
Catifea.10 Catifea __51.02 | Catifea 54.88 
Catifea 55.93 | Catifea 60.09 
Pled.10 
Pled 61.11 | Pled 65.82 
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Tabel IV. Distanţele d,, d,, d, cosinus şi corelaţia Pearson aplicate coeficienţilor dtewt 
pentru prima textură din fiecare clasă rotită cu 15° comparată cu baza de date redusă 


| 


Catifea 5.80 | Apă 10.44 


Covor 6,00 | Pled 10.48 


Apă 26.80 Apă 24.68 p 29.07 
Apă.15 Apă 26.94 Apă 24.82 29.37 
Ap ă 


>|> 
| ox 


ă 27.03 Ap 25.42 Scoarță 6.04 
Pietre 51.14 Covor 47.51 Catifea 5.80 
Gresie.15 C C à 
a E: 
P 


= 


ovor 47.79 Scoarţă 5.95 
Pietre 52.62 Covor ___6.01 
Pietre__45.07 Catifea __5.49 
Pietre. 15 B 
Blană 46.95 atifea 5.75 _| Catifea 11.00 | 


| Apă 27.03 | 
| Pietre 51.14 | 
| Pietre 52.30 | 
| Pietre 52.62 | 
| Pietre 45.07 | 
| Pietre 46.14 | 
| Blană 46.95 | 
Apă 47.09 Apă 44.87 Apă 48.96 atifea 7.45 | Pled 10.43 
Perete.15 Apă 4841 Apă 44.88 Apă 49.28 ovor 7.52 | Perete 10.58 
| Apă 4842 | 
| Pietre 5341 | 
| Cărămizi 53.74 | 
| Pietre 54.07 | 
| Pietre 70.34 | 
| Pietre 71.27 | 
| Gresie 7266 | 
| Gresie 62.68 | 
| Pietre 62.72 | 


Pietre 46.14 lană 42.26 Covor 45.42 Scoarté 5.68 | Pled 10.97 


[=] 


ă 48.42 Apă 49.30 vor___7.57 
Pietre 53.41 tifea 5.51 

Cărămizi.15 | Cărămizi 53.74 tifea 5.75 
Pietre__54.07 atifea__5.91 
Pietre 70.34 Gresie 75.19 atifea 6.66 

Sticlă.15 Pietre 71.27 Covor 76.31 tifea 6.73 
Gresie 72.66 


Gresie 62.68 Cărămizi 55.03 | Cărămizi 60.61 
Covor.15 atifea 5.55 Apa 10.92 
Cărămizi 62.86 | Cărămizi 55.12 | Cărămizi 60.86 atifea 5.59 | Catifea 10.93 


Apă 3937 Apă __ 35.99 Blană 43.99 atifea 5.78 | Blană 10.04 
Blană.15 Apă 40.00 Apă 36.03 Apă 44.26 Blană 5.81 Blană 10.40 
Apă 40.07 Apă 36.31 Blană 44.62 Catifea 5.94 | Pled 1051 


Catifea 57.19 | Catifea 47.16 Catifea 4.96 
Catifea.15 | Catifea 60.29 | Catifea 51.71 | Catifea 54.84 | Catifea 500 
Catifea 66.35 
Pled 66.73 
Pled.15 Cărămizi 68.38 
Pietre 68.76 


i=] 


o 

Br 
Ax 
S 
oo 
> 


le) e) 


i=] 


atifea 6.85 | Lemn 10.79 
atifea 5.52 | Scoarté 10.89 


7 
SNE 
[i 
a 
N 
D 
(7) 
o 
< 
ó 
g 
nN 
a 
= 
Q 
S 
is} 
a 
o 
a 
> 
oo 
Ww 
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Catifea 56.71 | Catifea 60.81 | Catifea 5.07 
Pled 58.25 5.46 
Pled 59.47 | Pled 62.40 | Catifea 5.89 
Covor 6.07 | Pied 1008 | 


o 
a 


SS ee 
| Secara 6346 | Scons 5608 | Scoarța 59.25 | Catifea 5.61 | Pied 1073 — 

Scoarța. 15 Catifea 10.77 
Lemn 10.87 
[Lemn 4600 | Lemn 3447 | Lemn 3615 | Catifea 5.74 | Lemn 1032 | 

Lemn. 15 Lemn 35.38 
Catifea 10.44 
Apa 2680 | 


Tabel V. Distanjele d 13435 
pentru prima textură din fiecare clasă rotită cu 1 


Lemn. 10 


a Scoarță 54.64 | Scoarta 58.79 
ie 70.97 | Pietre 59.20 
Gresie 60.46 


Gres 


Lemn 48.75 
Pietre 63.57 
Catifea 64.55 


Pietre 47.76 
Pietre 52.30 
Gresie 53.63 
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d, cosinus şi corelaţia Pearson aplicate coeficienţilor. dtcwt 


0° comparată cu baza de date cu o singură 


imagine în fiecare clasă 


Lemn 34.50 | Lemn 35.67 Catifea 6.01 Lemn 10.41 
Catifea 49.92 Lemn __ 6.31 | Catifea 10.88 
Apă 51.30 | Pietre 54.72 | Pietre 633 | Pled 10.97 

p Apă 28.84 | Apă 6.00 | Apă 1027 
Blană 38.72 | Pietre 48.88 | Catifea 6.13 | Pled 10.68 
Blană 49.31 | Gresie 6.33 | Bland 10.79 
Pietre 47.60 | Pietre 52.01 | Scoarță 6.05 | Pled 11.02 


| Scoarța _5.72 | Scoarţă 10.73 
Catifea 5.76 Pietre 10.93 


Gresie 64.97 
| Gresie 5.97 | Lemn 1099 


Pietre 65.29 


Blană 42.84 


Cărămizi 7.14 
Pietre 45.04 


Apă _ 53.40 
Blană 56.68 


Blană 44.47 Blană 49.53 Scoarta 6.10 Lemn 11.10 


Apă 4530 


Gresie 49.56 | Gresie 54.64 Pietre 6.09 Cărămizi 1.11 
Blană 50.99 Blană 58.18 Covor 6.11 Perete 11.12 
Pietre 42.85 Pietre 47.18 Catifea 5.88 Gresie 11.08 


Gresie 50.18 Cărămizi 6.19 | Blană 11.10 


Apă 46.14 
Perete 50.63 


Apă 51.99 
Perete 58.96 


Catifea 7.49 
Pietre 7.61 


10.80 
10.94 


Lemn 
Perete 


Pietre 56.96 Blană 50.95 Pietre 59.79 Covor 7.75 Pled 11.11 
Pietre 53.78 Pietre 50.92 | Pietre 57.50 Catifea 5.82 Apă 11.03 
Cărămizi 5.28 | Gresie 52.70 | Gresie 58.53 Gresie 6.10 Lemn 11.04 
Gresie 55.45 Cărămizi 3.23 | Blană 61.73 Pietre 6.16 Pled 11.12 
Pietre 71.87 Pietre 62.46 Pietre 75.58 Cărămizi 6.87 | Sticlă 10.52 
Gresie 73.83 Sticlă 64.93 Gresie 78.70 | Catifea 6.96 Apă 10.94 
Blană 75.38 Gresie 64.98 | Sticlă 79.84 Pietre 6.99 Blană 11.14 
Pietre 57.88 Catifea 5.70 | Catifea 11.02 
Gresie 67.12 Gresie 59.51 Gresie 65.58 | Covor 5.86 Pled 11.10 
Covor 59.67 | Pietre 65.63 | Pietre 5.95 | Scoarfi 11.12 
Blană 39.78 Blană 36.09 | Blană 43.59 | Blană 5.64 
Apă 37.97 | Apă 48.29 Apă 10.75 
Pietre 50.05 Pietre 45.73 | Pietre 52.52 
Catifea 55.93 | Catifea 60.09 | Catifea 5.06 


Catifea 67.06 


Catifea.10 Pietre 76.46 Lemn 64.07 | Lemn 70.77 Covor. 5.46 Pled Ss 
Gresie 76.96 Scoarta 66.39 | Scoar{a 74.38 Caramizi_ 5.63 | Covor 11.02 
Blană 70.89 Pietre 62.75 _| Pietre 68.85 Pled 5.77 Pled = ae 

Pled.10 Gresie 71.74 Blană 63.32 Pled_ 69.35. Scoarţă 6.18 Sina ei 
Pled 72.56 i] Apă ___ 64.17 | Gresie 71.25_| Catifea 6.19 | Apa i 
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Tabel XU. Distanţele d, d, d cosinus şi corelaţia Pearson pa coeficienţilor dtcwt 
pentru imagini diverse comparate cu albumul Brodatz 


a e a 


rr 
i 10 Apă 5.82 Cărămizi 10.98 
ue E Pale EP pp 62 Land 546 | Nisip T0 
| Spuma 3092. a 5 


i Paie 11.01 
= ae TL Pae 8092 [Nisip 586 | Pale 11.01 
Sona 88.84 | Scoarța 7631 | Scoarța 79.09 | Lani 5.63 | Lână 11.02 
Soati? Paie 76.60 Paie 81.07 Land mo 
Piele 90.86 Paie 77.02 Spumă 82.10 ielepore 5.72 [Apă 11.05 |] J 


Lână : 


P A 
artă 69.46 | Rafie 5.56 Caramizi 10.97 
ee Land 67.40 Lani 62.08 | Sco = caramizi Iis 
Scoarța ) jeleporc 71.08 Rafie 11.08 
Lani 70.00 Lână 62.72 Pieleporc E ae 
: z E 
Esa 


41.04 | Tesătură 5.51 | Paie 11.10 


[Lana 552 | Caramizi 11.11 


Tabel XII. Procentele de reuşită a clasificării folosind cele cinci distanțe şi cele patru baze 
de date 


80% 


Concluzii 


Alături de estimarea formei şi luarea în considetie a culorii, calculul texturii 
este deosebit de util în evaluarea similaritatii imaginilor, în adnotarea lor automata, 
într-o gamă foarte variată de aplicații. 

Am comparat utilizarea bazei de date Brodatz cu 13 clase de texturi: apă, 
căramizi, iarbă, lână, lemn, nisip, paie, piele, piele de porc, rafie, scoarță, spumă şi 
țesătură cu utilizarea bazei de date Vistex, am restrâns gama variată de eşantioane, şi 
am făcut comparații între eficacitatea metodelor utilizate. 

Calculul texturii se dovedeşte a fi deosebit de laborios şi consumator de 
resurse și timp, dar se dovedeşte în anumite cazuri a fi deosebit de util. Cercetarea 
inițiată continuă pentru a detecta procedura de evaluare a texturilor din imaginile sau 
înregistrările video, al căror număr creşte veriginor, şi pentru care sunt necesare 
procedurile automate de indexare, de adnotare. 
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Perceptie, reprezentare si limitele posibilităţilor de cunoaştere 


DAN GABRIEL SÎMBOTIN 


ABSTRACT: The problem of perception is fundamental for a general epistemology. 
In the history of philosophy every analyses of the posibilities of knowledge had a 
foundation in the problem of perception of the reality. Even today this problem îs 
still recent and unsolvable. The modern anatomy and psychology give a new vision 
of this problem, but is not enough. In relation with traditional epistemology and 
modern science, we try to explain the limits of perceptive realism, and how is 
possible to construct a unitary vision of reality. 


KEYWORDS: visual, perception, Gestalt, holism, imaginary 


Ca urmare a relaţiei pe care o avem cu mediul, pentru care vom folosi pe 
viitor tremenul de i-mediat!, se construieşte imaginea perceptuală şi reprezentarea 
primară a lumii. Deoarece informaţia conştinetă, preluată din i-mediat este într-un 
procent considerabil (peste 80%) de natură vizuală, modalitatea în care funcționează 
văzul influențează în mod fundamnetal structura noastră cognitivă şi modul în care 
integrăm ansamblul informaţional. Problema pe care dorim să o dezbatem, pornind 
de la problema realismului, este în ce măsură i-mediatul este reflectat cu rigoare de 
către sistemul nostru perceptiv. Pentru aceasta vom urmări dacă imaginile perceptive 
au aceeaşi esență şi structură cu imaginile mentale imaginate, care este rolul 
subiectului în construcția imaginii perceptive, sau cu alte cuvinte imaginea per- 
ceptivă este una subiectivă (specifică fiecărui subiect) sau obiectivă (comună tuturor 
subiecților) şi, în final, dacă nu putem considera chiar şi imaginea perceptivă creație 
a propriului nostru eu. La acestea vom adăuga analiza problemei epistemice în care 


imaginea şi în cazul cunoaşterii ştiinţifice se păstrează elemente ale construcției 
vizuale. 


1. Imaginea perceptivă recepție sau proiecție 


In formarea imaginii perceptive, sistemul senzorial, specifice fiecărei specii 
joacă un rol fundamental în construcţia imaginii i-mediatului. Pe lângă aceasta foarte 


1 2 , -y A . A A 
Folosim acest termen „i-mediat” în locul celui de 


implicaţiile ontologice pe care le 
cu organele noastre de simţ şi p 
primară a lumii, 


„realitate” deoarece dorim să eliminăm 
are ca cel din urmă, I-mediatul este ceea ce intră în contact direct 
e bază căruia se construieşte imaginea peceptivă şi reprezentarea 
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importantă este şi personalitatea celui care preia mesajul. Atunci când ne referim la 
personalitate avem în vedere întreg complexul bio-psiho-social, incluzând atât 
aspectele cognitive cât şi pe cele de ordin afectiv şi organic. Personalitatea 
individului se proiectează asupra imaginii determinând variaţii ale acesteia. De aceea 
putem vorbi despre imagini ale lumii individualizate. Aceşti factori creează o 
imagine perceptivă diferită de la individ la individ, iar procesul perceptiv nu este un 
proces static, ci dimpotrivă unul dinamic şi interactiv. 


Pornind de la modelul cutiei negre (black box) folosit de behaviorişti pentru 
reprezentarea procesului cognitiv considerăm că singurul element ferm cunoscut este 
unul subiectiv, şi nu comportamental: propria imagine, pe care o considerăm o 
reprezentare a realităţii. Dar cât de diferite sunt imaginile individuale? Pot acestea să 
redea i-mediatul aşa cum este el? Răspunsurile sunt diferite. Ne putem pronunţa aşa 
cum o face în sinteză Mielu Zlate. „Psihicul poate reproduce în sine, în interiorul său 
realitatea înconjurătoare aşa cum este ea, dar şi într-o formă modificată, aşa încât 
realitatea din mintea omului să nu mai semene cu realitatea din afara minţii lui.” 
Această perspectivă moderată care încercă să împace realismul cu o formă de 
subiectivismul perceptiv, poate fi o soluție prin care nu sunt negate nici posbilitatile 
de eroare ale perceptiei dar nici capacitatea acesteia de a reda in contextul adecvat 
i-mediatul. Astfel B reflectă A iar distorsiunile care pot să apară sunt doar accidente. 

Modalitatea in care este folosită descrierea psihicului scoate in evidenţă 
faptul că imaginea perceptivă nu este efectul unei construcții mentale, ci ea redă 
realitatea, în anumite momente cu distorsiuni care au drept cauză componenta 
subiectivă. Considerăm că această perspectivă apropiată de realismul clasic, care 
chiar dacă încearcă să rezolve problema erorilor de percepţie, pe care nimeni nu le 
neagă, nu dă un răspuns în legătură cu proiecția imaginilor proprii asupra a ceea ce 
reprezintă imaginea perceptivă primară. Ea are o tradiție îndelungată, iar empirismul 
epocii moderne, prin viziune lui Francis Bacon, o sintetizează perfect „Se poate 
spune chiar, în aceasta privinţă, că mintea este o oglindă care primeşte şi reflectează 
razele lucrurilor, nu pe un plan unic, ci pe o mulțime de fațete aşezate diferit, aşa 
încât nu există nimeni care, datorită educației, studiilor şi naturii sale proprii, să nu 
fie sub înrâurirea unei puteri ademenitoare şi ca pradă unui duşman obişnuit care îl 
înşeală şi îi tulbură mintea printr-o mulţime de arătări deşarte.”” 


A ; j a În af ir, aj 9 909 
Mielu Zlate, Introducere în psihologie, Editura Polirom, laşi 2000, p. an SA Ştiinţifică şi 
s ugelări şi vari î espre  înțelepei nticilor, Editura Stiintifica şi 
3 F, Bacon, Cugetări si observări în Despre tinge lepciunea anticile a S à ş 
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„Metafora oglinzii” care distorsionează a realitatea a fost ulterior metamor- 
fizată în cei patru idoli“ care surprind toate direcţiile cunoașterii omeneşti. Cei patru 
idoli au fost divizați după următoarele criterii: cantitativ — omul ca particular 
(individul) şi omul ca universal (societate) şi calitativ (cultura) — omul în stare 
naturală şi cel cultural. Făcând o sinteză a idolilor îi putem reprezenta astfel: 


[Oul Individ 7 Societate | 
Idolii tribului Idolii forului 


Idolii peşterii Idolii teatrului 


Sintetic, idolii tribului privesc individul cu puterile lui de cunoaştere, cei ai 
peşterii privesc persoana din perspectiva culturii sale proprii, idolii forului sunt 
idolii legăturilor dintre oameni, ai limitărilor comunicării în cadrul societății, iar cei 
ai teatrului privesc societatea prin consecinţele sale culturale. 

Acest exemplu arată că dacă preferăm varianta teoretică prin care B este o 
reproducere mai mult sau mai putin fidelă a i-mediat-ului, atunci putem identifica o 
multitudine de elemente care intervin între în constituirea erorilor. Din punctul nostru 
de vedere mai interesantă şi cu un potențial explicativ mai ridicat este perspectiva 
dezvoltată de Christensen şi Klivington. Aceştia consideră că rolul creierului nu este 
acela de a filma realitatea, ci mai degrabă „o reconstituie şi într-o oarecare măsură o 
şi creează”. 

Imaginea pe care o avem despre lume din perspectiva noastră nu constituie 
„realitatea” ca o redare fidelă a i-mediatului, ci o formă subiectivă de decodare a 
acesteia subiectivă. Deoarece formarea imaginii generale începe de la ceea ce se 
poate numi simț comun care nu reprezintă realitatea într-un mod „obiectiv” trebuie 
idnetificată sursa/sursele imaginii perceptive. Dacă imaginea perceptivă nu reprezintă 
realitatea, ci este o construcţie, ea aparține nivelului imaginar, ea existând doar ca 
imagine mentală şi prin aceasta subiectivă. De aceea trebuie să considerăm că 
imaginarul este o formă integrantă a „realităţii” şi „realitatea” formă integrantă a 
imaginarului. 
pda Astfel, pentru susținerea acestei idei este necesar să identificăm dacă 
imaginea senzorială reprezentarea are aceeaşi structură ca reprezentările mentale. 
Imaginea formată prin senzații nu reprezintă un ansamblu holistic al spațiului încon- 
jurător. Ea este limitată, iar orice explicaţie exhaustivă a acesteia este o construcție 
subiectivă. Ne construim propria lume prin forme de specifice de operare a propriului 
nostru creier: analiza, generalizarea, abstractizarea etc. Imaginile generale asupra 
lumii sunt construcții proprii, dar este posibil ca realitatea să fie într-adevăr aşa cum 
sonnet mda it E 07 estima care redau ned 
care o sesizăm. Sau este posibil să ei BENS eini Parte go i mediatips 
înconjurătoare şi astfel să fim TE a propriul imaginar asupra realității 

Nu există diferenţe majore între ted nik pics Ges A Rar 

a percepției şi cele ce nu mai x g pa S mentale eS realizează ca ue 
| au ca suport obiectul. Pentru a ne susține punctul de 
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vedere vom descrie experimentul realizat d 
translucid marcat cu un 


să-şi focalizeze mental 


e Perky în 1910, În fața unui ecran 
| aşează o persoană ce trebuie 
şi imagineze o roşie. Pe spatele ecra- 
uloare roşie la o intensitate inferioară 
nă când devine perceptibilă. Subiectul 
ferenta, el declarând în continuare că 
nu există nici o diferență de substanță 
ată din exterior. Fiind de aceeaşi natură 
imaginea cerebrală şi cea receptionata. 
afirmăm că imaginile mentale sunt de 
rita. In cazul percepției energia ce deter- 


mină imaginea este exterioară, iar în cazul imaginaţiei aceasta are drept sursă energia 


interioară. 

Trebuie, totuşi, să remarcăm că în acest experiment s-au folosit imagini 
foarte simple. Oare imaginile mentale nu sunt asemănătoare celor reale doar în cazul 
imaginilor simple? Dacă în cazul imaginilor complexe asemănarea nu mai este vala- 
bilă? Pentru a realiza analiza imaginilor complexe vom interpreta două experimente 
realizate ulterior celui a lui Perky. Primul este cel realizat de Shepard şi Metzler’, 
1976, in care pe un ecran erau prezentate diferite doua figuri geometrice una lângă 
cealaltă. Acestea reprezentau aceeaşi imagine în unghiuri diferite. Era cronometrat 
timpul până când persoana asupra căreia era efectuat experimentul realiza diferenţele 
dintre cele două figuri. S-a observat că perioada de timp este direct proporţională cu 
unghiul de rotaţie al imaginii. Comportamentul era de aşa natură de parcă imaginile 
ar fi avut rigiditate fizică şi o viteză de rotație măsurabilă. Acest experiment arată că 
la nivel mental avem tendința de realiza aceleaşi mişcări cu deprinderile pe care le 
avem cu privire la lumea exerioară. Pentru noi nu există diferențe foarte mari de 
structură între cele două tipuri de imagine. 

Al doilea experiment realizat de Kosslyn® în 1980 s-a concretizat cu nişte 
concluzii asemănătoare celor prezentate anterior. Experimentul consta în realizarea 
unei expediţii imaginare. Iniţial subiectul este rugat să deseneze harta unei insule. 
Ulterior, în lipsa hărţii acesta este să-şi imagineze că se află pe plajă, iar experi- 
mentatorul îi cere să identifice anumite obiecte de pe insulă. Este măsurat timpul 
necesar identificării, iar acesta este direct proporțional pu distanţa de la plajă la obiect 
de parcă persoana parcurgea în imaginație drumul până la jobicat, ae mentală 
conţinea aceleaşi informaţii ca şi cea reală iar identificarea $ Xa iza i pars 
obiectul era căutat pe o hartă reală. Cele două experimente ne-au dus la concluzia că 
ănătoare celei reale, iar activitățile ce aparțin imaginației 
aparțin gândirii sau identificării perceptive. Diferentele 
se cognitive nu sunt de esenţă, ci doar 


imaginea mentala este asem 

sunt de același tip cu cele ce | 

dintre imaginaţie, percepție și alse 
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întrebarea ce apare acum este următoarea: joacă vreun rol omul în construcția ima- 
ginii perceptive, care constituie baza pentru imaginea despre lume pe care O numim 
realitate? Răspunsul pe care dorim să-l dăm este pozitiv şi pentru aceasta în primul 
rând vom prezenta ceea ce J Rock susține în cartea sa The logic of perception: 
percepția este inteligentă. De fapt suntem obligați să precizăm că nu percepția este 
inteligentă, ci modul în care se formează imaginea perceptiva este inteligent. Această 
modalitate de construcție a imaginii se datorează unei modalități complexe de rela- 
tionare între procesele psihice. De aceea atunci când discutăm despre psihicul uman 
trebuie să-l privim în mod holistic, neexistând rupturi între procesele psihice. 


2. Holismul şi formarea imaginii despre lume 


Regula de bază după care funcționează percepția constă în realizarea unei 
imagini holistice asupra lumii pornind de la imagini individuale sau frânturi de 
imagini. În primul rând imaginea perceptivă generală se formează pornind de la 
imaginile individuale care se află la nivelul „ferestrei atenției” (attention window)” 
prin combinarea acestora astfel încât să se obțină o imagine de ansamblu asupra 
realității. Această tendință de a integra într-un tot unitar imaginea este dublată de 
proiecția asupra imaginii percepute a imaginilor deja existente în memorie. Aceste 
două elemente sunt fundamentale pentru ceea ce am numit „inteligența percepției”. 
Pentru a susține această idee trebuie urmărită modalitate în care se recunoaşte 
obiectul în cazul imaginilor incomplete. 

Experimentele realizate în această direcție au subliniat modalitatea în care se 
proiectează imaginea existentă în memorie asupra obiectului perceput. Sintetizând 
aceste experimente se pot enumera următoarele tipuri’’: 

l. „Contururi degradate” realizate de Biederman şi Binckle în 1985 reprezintă 
experimentele în care s-au eliminat părți din conturul unui obiect, încercându-se 
identificare acestuia. Lucrul acesta a fost posibil datorită imaginilor deja exis- 
tente la nivel mental. 

Dr „Părți lipsă” reprezintă experimentele în care au fost mutate parti dintr-un anumit 
obiect ŞI s-a urmărit posibilitățile de identificare ale obiectului. Astfel de expe- 
rimente au fost realizate de Biederman 1987, Cave şi Kosslyn 1993, Biederman 
şi Cooper 1991, 1992. 

3, „Imagini fărâmițate” sunt experimentele în care imaginea era fragmentată, tre- 
buind reconstituită. Experimentele realizate de Cave şi Kosslyn 1993 au arătat că 
există tendința de a asocia părţile aflate în apropiere, şi nu cele ce se potrivesc 
din punct de vedere logic. Dar în urma procesului de verificare cu imaginea deja 


existentă, acestea au fost reorganizate şi s-au realizat, în cele din urmă, imagini 
coerente. 


4, „Întreruperi spatiale între parti” 


7 i constituie experimentele (Cave şi Kosslyn 1993) 
in care s-au realizat mut 


ări între părţile componente ale unor obiecte. Obiectele 


7 Pk The pl of perception, MIT. Press, Cambridge, 1983 
tephen M. Kosslyn, / j ad on fa i 
1 ae p. 265. yn, /mage and Brain, Bradford, Cambrige Massachusetts, 1995, pp. 187-194. 
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erau reconstituite pe baza imaginii ce se considera că este cea iniţială. Această 
imagine putea fi identificată şi pe baza directionari verbale. 


| „Aceste experimente au determinat o anumită perspectivă asupra imaginii 

perceptive sintetizată în legile gestaltiste ale percepției: 

xa) principiul proximităţii — elementele aflate în proximitatea spaţială sunt grupate 
într-o singură unitate perceptivă; 

b) principiul similarități — elementele similare sunt grupate în aceeaşi unitate 
perceptivă, care e contrapusă altora; 

c) principiul buneicontinuări — la intersecţia a două contururi ele sunt percepute 
după continuarea cea mai simplă; 

d) principiul închiderii — conturul ocluzat al unei figuri este închis după 
configurația sa vizibilă.”!? 


Atât experienţele descrise mai sus cât şi legile gestaltiste pornesc de la ideea 
enunțată deja că percepţia are tendinţa de a uni imaginea, creând o structură holistică. 
Datorită acestei tendințe spre unificare, folosindu-ne de imaginile deja existente, 
subiectul devine un element important în a crea realitatea înconjurătoare. Imaginea 
exteriorului este o construcție între ce are la bază relaţia subiectiv — obiectiv. 

, Putem afirma ca relatia dintre eu si mediu este una interactiva, omul pre- 
luând din mediu impulsul energetic, construieşte imaginea sa mentală care este 
subiectivă. Din acest punct de vedere putem considera în conformitate cu Ittelson că 
percepţia este: „o tranzacție, un fel de interrelatie sau schimb între organism şi 
mediu, dar în care fiecare parte a situației intervine ca participant activ şi îşi dato- 
rează existenţa tocmai acestei participări active.” Interacțiunea dintre mediu si 
subiect nu se manifestă în mod necesar prin modificarea mediului, dar imaginea 
percepută nu reprezintă preluarea identică a acestuia. Unitatea dintre universul 
gnoseologic şi cel perceptiv este foarte strâns, astfel încât imaginea perceptiva este 
formată pe baza celor două, neputându-se realiza o ruptură radicală în interiorul omu- 
lui. Imaginile umane sunt de acelaşi fel indiferent de sursa lor, iar imaginea despre 
lume este una şi ea este parte integrantă a psihicului uman. Aici am ajuns la problema 
larg dezbătută, pe la mijlocul secolului al XX-lea, a diferenţei dintre cunoaşterea spe- 
cifică simțului comun şi cea ştiinţifică. Noi nu susţinem că cele două de cunoaştere ar 
determina aceleaşi imagini, ci dimpotrivă construcția lor se realizează în mod diferit 
determinând imagini diferite. 


3. Construcţia imaginii despre lume 


Totuşi tendința din psihologia teoretică este de a împărţi psihicul uman între 
componentele cognitive şi cele perceptive, intre aceste două elemente existând o 
strânsă legătură. Nivelul cognitiv influențează modul în oare imaginea se formează 
fiind un fel de matrice a acesteia, Există un număr mare de experimente care au avut 


; ; itivă, Editura Polirom, laşi, 1999, p.82. 
12 A sihologie cognitivă, Editura Po » lași, , Ă ataca Ep 
a ie rons apud Mielu Zlate, Psihologia mecanismelor cognitive, Editura 


Polirom, laşi, 1999, p. 129. 


DAN GABRIEL SÎMBOTIN 


drept scop identificarea relaţiei dintre imagine şi cuvânt. Dintre acestea credem că cel 
mai reprezentativ este cel al psihologilor Carmichael, Hogan şi Walter, 1932", 
Aceştia au prezentat la două la grupuri de subiecți Oiseiit de ee ambigue. In 
cadrul primului grup imaginile au fost însoţite de diverse denumiri. Tendinţa celor 
din grupul supus experimentului a fost de a recunoaşte imaginea care le-a fost indusă 
de stimulul verbal. Astfel datorită asociaţiei ce se realiza între imagine şi cuvânt 
acestea erau deformate în direcţia cuvântului asociat. De ce se realizează acest lucru? 
Explicația noastră este următoarea: cuvântul proiectează la nivelul mental al indi- 
vidului o imagine. Această imagine este imaginea necesară pentru a dirija percepţia 
aşa cum am observat în experiențele anterioare. Atunci când imaginea generală este 
considerată ca fiind cunoscută, atunci imaginea perceptivă se identifică cu aceasta. În 
cadrul acestui experiment cuvântul joacă doar un rol de intermediar între imaginea 
mentală şi cea perceptivă. 

În cazul imaginilor duble putem percepe obiecte diferite uitându-ne la aceiaşi 
imagine pe baza unor criterii subiective. Aceste imagini duble subliniază faptul că 
subiectul şi proiectează propriile stări, propria structură cognitivă asupra imaginii pe 
care o percepe. Percepția este un fenomen subiectiv, nu numai prin faptul că sistemul 
receptor este propriu fiecăruia ci, şi prin faptul că imaginea ce se formează la nivel 
mental este o sinteză între structura cognitiv afectivă proprie şi elementele exterioare. 
Datorită acestei relaţii ce există între cognitiv şi perceptiv a apărut problema siste- 
mului de imagini complexe care sunt specifice fiecărei persoane. Urmărind sistemul 
cognitiv şi modalitatea de activare a acestuia, am ajuns la concluzia unei conştien- 
tizări parțiale ale proceselor psihice. „Fereastra atenţiei” este mult prea îngustă pentru 
a surprinde şi susține activitatea cognitivă specifică fiecăruia. Deprinderile sunt cele 
care operează în majoritatea acțiunilor omeneşti, conştientizarea acestor acţiuni fiind 
redusă sau chiar lipsind. Acelaşi fenomen este întâlnit şi în cazul percepţiei, deoarece 
imaginea percepută se realizează pe baza cunoştinţelor deja existente, prin proiecția 
imaginii cerebrale asupra structurii mai mult sau mai puţin complete a imaginii 
percepute. Mai mult înțelegerea şi integrarea imaginii se face tot pe baza unor 
construcții deja existente. O imaginea ce nu se integrează în acest sistem este 
percepută ca imagine dilematică, şi neintegrată în sistemul imaginar propriu. 

Am argumentat până în acest moment faptul că imaginea perceptivă este 
formată prin intervenția structurii cognitive specifice fiecăruia. Dar de ce apare 
această implicare şi de ce imaginea cognitivă nu este copia fidelă a realităţii? În 
primul rând pentru că există mai multe eta 


imaginea noastră mentală. 
1. 


pe in trecerea de la energia exterioara la 


Prima dintre etape este cea care a fost numită image activation” (activarea ima- 
en) $1 constă in două procese complementare. În primul r 
espre a ip ezantare de suprafaţă proces ce determină formarea imaginii 

E ceasta reprezintă o schiţă a imaginii ce urmează a fi percepută, în 
aceast ză fii xfrace p uri î alagi ti ` 

ază fiind extrase contururile, În acelaşi timp are loc şi un proces de 


ând putem vorbi 
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ja pene P o ee comparative cu imaginea primara. Pe 

a acestor imaginea secundard, cea prin care conturul 
devine imagine de ansamblu. 

2. A doua etapa este cea denumită image inspection” (inspectarea imaginii) şi este 

reprezentată de procesul prin care sunt surprinse detaliile imaginii. În această 
etapă intervin deja procesele cognitive pentru că o parte a detaliilor pot fi şi 
construite. 

3. A treia etapă constă în image maintenance"? (menţinerea imaginii) şi reprezintă 
procesul în care imaginea perceptivă este stabilă şi recunoscută. Procesul este 
complex şi se realizează pe baza relaţiei dintre cognitiv şi perceptiv. 

4. Ultima etapă este image transformation” (transformarea imaginii) şi constă în 
transformarea imaginii pentru a putea fi integrată în complexul cognitiv propriu. 
“Această etapă este cea care determină construcția imaginarului ca imagine de 

„ansamblu. Fiecare dintre imaginile ce se integrează trebuie să fie compatibile cu 
imaginarul persoanei, altfel ele sunt marginalizate şi se constituie in imaginarul 
marginal sau pur şi simplu sunt eliminate din structura de imagine. 

adie 


Weer 


sp Aceste etape sunt necesare pentru a integra imaginile noi între celelalte ima- 
gini şi a alcătui imaginarul unei persoane. Fiecare dintre etape joacă rolul său în 
constituirea imaginarului perceptiv. 

Dar majoritatea experimentelor descrise au avut drept punct de plecare ima- 
ginile simple statice. Există aceleaşi procese şi la nivelul imaginilor complexe? Dar 
ce reprezintă mişcarea şi cum se formează ea la nivel mental? 

Pentru a răspunde la aceste întrebări un element care trebuie urmărit este 
reprezentat de percepţia succesiunii. Şi în acest caz putem urmări intervenția subiec- 
tivului asupra “realităţii obiective”. Tot la nivelul percepției mişcării şi a succesiunii 
trebuie urmărită şi problema percepției temporale. Problema care apare aici este dacă 
percepția succesiunii reprezintă o formă a „realului” sau o construcție mentală. Una 
dintre caracteristicile principale ale mişcării este datorată inertiei imaginii. Astfel 
imaginile statice ce se succed cu 0 viteză mai mare de 1/25 secunde dau senzaţia 
mişcării. Această inerție a sistemului senzorial poate constitui sursa unor variații 
perceptuale astfel încât imagini statice pot să creeze o mişcare aparentă. 

Astfel trebuie urmărită mişcarea din mai multe puncte de vedere. Mielu Zlate 
realizează o clasificare a percepţiei mişcării identificând cinci tipuri de percepție: 
reală (când obiectul se mişcă dintr-un loc în altul); aparentă (când obiectul pare că 
se mişcă chiar dacă este nemişcat); indusă (când obiectul este inclus sau lângă un 
obiect în mişcare şi pare a se mişca), autocinetica (când privim un punct luminos 
într-o cameră întunecată fără alt punct de reper punctul respectiv pare în mişcare); 
consecutivă (după ce urmărim un obiect în mişcare, dacă urmărim altul şi acesta va 

ărea în mi 20 Aceste tipuri de percepţie a mişcării arată tendința psihicului de a 
Pees mişcare) FE? p e ale percepției. Această ten- 
crea continuitate, legături între elementele componente ale percepției. s 


17 Stephen M, Kosslyn, op. cit» P: 149, 
18 Idem, p. 150. 


'9 Ibidem, p. 151. 


20 Mielu Zlate Psihologia mecanismelor cognitive, Editura Polirom, laşi, 1999, p. 157. 
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dinţă de continuitate nu se bazează doar pe inerţialitatea sistemului senzorial ci şi pe 
arată intervenţia cognitivului in percepția mişcării. ea 

Timpul subiectiv este tot o formă de percepţie a mişcării. Acesta este repre- 
zentat de viteza aparentă de mişcare, care se constituie sub forma unui raport dintre 
viteza de acţiune proprie la un moment dat şi viteza de acțiune medie. În absența 
percepției mişcării nu ar exista timp, pentru că acesta este măsură a mişcării. T ot 
raportată la mişcare este şi cauzalitatea, Fără a exista mişcare nu putem identifica 
legături între obiecte, evenimente, imagini. O percepţie flash ar constitui sursa unei 
lumi fără timp şi relaţii cauzale. Aceasta ar fi o lume ruptă un perpetuu moment 
prezent. De asemenea fără ideea de cauzalitate şi temporalitate nu există o psihologie 
a mişcării. Relaţia dintre cele percepția mişcării şi timp este una de influenţă şi 
susţinere reciprocă, 

Totuşi vorbind despre constituirea imaginarului perceptiv şi despre moda- 
litate de interrelationare dintre imaginea cognitivă deja existentă şi imaginea 
percepută se conturează problema modalităţilor de constituire a imaginarului exis- 
tent. Ce informaţii sau structuri informaţionale detinem la naştere, ce învăţăm şi ce se 
află deja în noi reprezintă întrebările la care încercăm să răspundem în continuare. 
Nu vom încerca şi nici nu putem să rezolvăm acum problema surselor cunoaşterii. 
Totuşi vom încerca să prezentăm modalitatea în care se formează imaginea despre 
lume a fiecărei persoane. Problema aceasta poate fi analizată pornind de la psihologia 
genetică a lui J. Piaget. Raportul dintre percepţie şi universul cognitiv este unul 
constructiv, ce se dezvoltă în timp. El porneşte de la o concepţie empiristă pură 
eliminând ideea că la naştere ar exista orice formă de cunoaştere. El consideră că nici 
măcar intuiţiile apriori de spaţiu şi timp”! nu sunt specifice omului. Jean Piaget 
consideră spaţiul şi timpul drept construcții perceptuale ce se realizează în copilărie. 
„Abordând mai întâi structurile spatio-temporale, constatăm că la început nu există 
nici un spaţiu unic, nici o ordine temporală, care să înglobeze obiectele şi evenimen- 
tele aşa cum recipientul înglobează conţinutul său. E dat doar un ansamblu de spații 
eterogene, toate centrate pe corpul propriu al copilului: spaţiul bucal, spațiul tactil, 
vizual, auditiv, postural, precum şi unele impresii temporale (aşteptarea etc.) dar fără 
coordonări obiective.” Acest spaţiu şi timp care se dezvoltă în interior vor fi 
exteriorizate odată cu alte elemente specifice. 

Astfel realitatea obiectivă este o construcție subiectivă ce va fi obiectivată 
treptat, odată cu dezvoltarea copilului. „Studiul inteligenței senzorio-motorii sau 
practice din cursul primilor doi ani de dezvoltare ne-a arătat cum copilul, începând 
im pm ct mel ever aviati se, construieste apok, gen a 
mobile și mai apte de a $ aoaaa Pit sect de acheme, ia acelaşi pmp; ma 

constituie o modalitate prin care mater “al e onsenţia genetica ial ăi 
imaginarului. Constituirea spere T moge ARG de dezyo itara spe 
gradual și prin aceasta imagines dea re | me a Sonna a ca Seaca 
care trăim este o lume a subieotivităţi i i So patrate paS ai pas, Puce 4 
api, imaginarul se construieşte în interior prin 


Immanuel Kant, Critica haţiunii pure, | 
Jean Piaget, Barbel Inhelder, Psiholog 
Jean Piaget, Constituirea realului la e 


iditura IRI, Bucuresti, 1994, pp. 71-94, 
la copilului, Editura Didactică şi Pedagogică, Bucuresti, p. 16. 
opil, Editura Didactică şi Pedagogică, Bucureşti 1976, p. 3. 


292 


| 
| 
| 
| 
| 


|| 
|! 


Perceptie, reprezentare ŞI limitele posibilităților de cunoaştere 


relaționare cu mediul natural şi social şi ulterior 
obiectivă a realității. Realitatea constituită interior ca imagine mentală este proiectată 
ulterior ca obiect: „este limpede că recunoaşterea nu conduce în nici un caz de la sine 
şi ini complicații ulterioare la noțiunea de obiect"? Constituirea mentală a 
obiectului se va realiza treaptă cu treaptă în funcţie de vârstă mintală a copiilor, 
Dezvoltarea universului cognitiv implică şi dezvoltarea universului perceptiv, pe 
baza schemelor pe care copilul va învăța să acţioneze. Chiar dacă în concepția sa 
Piaget este un realist, nepunând nici o clipă la îndoială realitatea înconjurătoare, 
teoria şi experimentele sale pot susţine un subiectivism perceptiv total. Nu este 
obligatoriu ca mediul natural să fie în forma în care este perceput de noi, este 
suficient suportul mediului social care proiectează o realitate naturală convenită. 

De aceea este posibil să considerăm percepția doar ca o construcție subiec- 
tiv-imaginativă în care fiecare dintre imaginile individuale ale noastre şi ale celorlalți 
îşi aduc aportul. Făcând o sinteză a modului în care se formează imaginarului per- 
ceptiv ajungem la următoarele concluzii. Imaginea perceptivă este sinteza imaginilor 
vizuale, auditive, senzorio-motorii şi kinestezică. Toate formele de percepţie sunt 
diferite, ele apărând în funcție de distanță în momente diferite, dar sunt asamblate 
într-o singură imagine perceptiva. Astfel psihicul intervine în a realiza o imagine de 
ansamblu a realității prin intermediul nivelului cognitiv care participă în mod activ la 
formarea acesteia. Faptul că imaginarul nu trebuie redus la ideea de imagine vizuală 
poate fi susținută prin modalitățile de a percepe realitatea specifice orbilor. Aceştia 
au o imaginație de ordin imagistic, chiar dacă nu au perceput niciodată o imagine 
vizuală. Construcţia lor s-a realizat într-un mod deformat, dar prin intermediul celor- 
lalte simțuri au reuşit să-şi construiască o imagine despre lume proprie. Diferenţele 
dintre imagini dintre un om normal şi un orb nu sunt de esență ci de acuratețe, ceea 
ce arată că imaginea este una dintre modalitățile fundamentale de operare ale 
sistemului cognitiv. De fapt imaginea este considerată de către noi drept cărămida de 
bază a psihicului uman ea fiind modalitatea de a transmite, structura si crea 
cunoştinţe. 

Imaginarul se construieşte pe baza imaginii perceptive. Aceasta se formează 
prin interrelationarea subiect obiect ce are drept bază anumite cerinţe de construcție. 
Acestea ar putea fi sintetizate astfel: 

l. Imaginea perceptivă este influențată de imaginarul deja existent al fiecăruia, 
construindu-se pe baza relaţiei subiect — obiect, 

2. Construcția imaginarului fiecăruia se realizează într-un mod treptat, natural, 
senerându-se un ansamblu vital integrării spatio-sociale. Orice modificare bruscă 
a imaginarului determină stări de disconfort personal putându-se ajunge până la 


© proiectăm în afara, ca formă 


traume. 
Există tendința psihicului uman de a construi mai multă ordine, chiar acolo unde 


aceasta nu există. Aceasta determină o imagine unitară a cosmosului, iar acolo 
unde există inadvertente acestea sunt adaptate ordinii personale sau imaginile 


we 


sunt respinse, ee r A 
4. Psihicul funcționează pe baza imaginii holistice, „interpretarea? lumii jucând un 
rol foarte important în „ formarea” ei. 


23 Jdem, p.10. 
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5. Percepția este un ansamblu realizat din imaginile vizuale, auditive şi senzorio- 
motorii strâns legate între ele. Ele se finalizează prin intermediul unei imagini de 
ansamblu asupra i-mediatului. 


Deoarece imaginarul constituie principala formă de manifestare a universului 
cognitiv este necesar să urmărim şi relația ce există între personalitatea umană ca 
ansamblu şi imaginarul individual. 


În loc de concluzii: eroarea perceptivă ca fundament al 
reproducerii imaginii 


Un rol important în dezvoltarea teoretică îl joacă reconstrucția şi repro- 
ducerea imaginii. Astfel, imaginea spaţială prin transferul de la bidimensional la 
tridimensional se fundamentează pe modalitatea în care percepem unghiul şi ima- 
ginea holistică, respectând princiile gestatiste. Pictura ca reprezentare a realităţii se 
fundamentează ca modalitate de reconstituire a vizualului pornind de la reflexiile 
luminoase şi modalitatea în care acestea redau culorile, lumina şi umbrele. Vizualul 
este redat prin limintele pe care le are propriul nostru aparat receptor, şi de aceea 
orice repoducere a imaginii trebuie speculeze aceste limite. 
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